Daten - Textvorverarbeitung
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 79 | |
Author | 0009-0005-7056-1932 (ORCID) | |
License | CC Attribution 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/65536 (DOI) | |
Publisher | ||
Release Date | ||
Language | ||
Production Year | 2023 | |
Production Place | Heinrich-Heine-Universität Düsseldorf |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
12
17
18
34
36
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
56
58
59
61
63
66
67
68
69
71
74
75
78
79
00:00
JSONXMLComputer animation
00:05
Word processorMachine learningNumberCodeString (computer science)Execution unitAngular resolutionZahlToken ringLecture/ConferenceJSONComputer animation
01:38
Computer animationMeeting/Interview
02:01
WordSearch engine (computing)WritingToken ringForm (programming)Lecture/ConferenceComputer animation
03:43
VorverarbeitungWord processorSearch engine (computing)Lecture/ConferenceJSON
04:41
Computer animationXML
Transcript: German(auto-generated)
00:05
Welche Vorverarbeitungsschritte sind notwendig, damit ein Machine Learning Modell mit Texten umgehen kann? Texte liegen im Computer anhand von Strings vor. Strings sind Zeichenketten, die als Zahlen codiert gespeichert werden.
00:20
Eine Codierung ist eine eindeutige und feste Zuordnung von einem Zeichen zu einer Zahl. Die Verarbeitung von Text hängt sehr stark von der späteren Anwendung ab. Die hier vorgestellten Schritte dienen nur als Beispiel, womit man sich bei der Textverarbeitung befassen kann. Insbesondere spielt die Sprache des Textes eine Rolle dabei, welche Schritte wie ausgeführt werden müssen.
00:43
Damit eine Maschine unseren Text verstehen kann, unterteilen wir ihn zuerst in Einzelteile, sogenannte Tokens. Es kommt auf die Anwendung an, wie die Aufteilung stattfindet. Aber häufig wird der Text erst in Einzelsätze und dann in seine Einzelwörter aufgeteilt. Es ist also notwendig, den Text von vorne bis hinten durchzugehen und an den Leerzeichen,
01:05
Zeilenumbrüchen usw. zu trennen. Je nach Sprache kann es aber auch nötig sein, einen Text in kleinere Einheiten als Wörter aufzuteilen. Jeder kennt bestimmt das berüchtigte Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz, zumindest vom Namen her.
01:22
Hier ist es selbst für Menschen noch nötig, das Wort in seine Einzelwortbestandteile aufzuteilen, um es zu verstehen. In diesem Schritt findet manchmal auch eine Auflösung von Verkürzungen statt, wie z.B. das Auflösen von Aufs zu Aufdas. Nach der Aufteilung in Tokens folgt häufig eine Normalisierung.
01:43
Für den Computer sind die Wörter Aber und Aber unterschiedliche Wörter. Das kannst du dir deutlich machen, indem du dir die ASCII-Kodierung dieser beiden Wörter anguckst.
02:01
Die Großschreibung von Wörtern erfolgt in vielen Sprachen vor allem am Satzanfang, sodass sich die Bedeutung dieser Wörter nicht ändert, nur weil sie groß geschrieben werden. Daher werden häufig alle Tokens einmal durchgegangen und Großbuchstaben in Kleinenbuchstaben umgewandelt. Außerdem werden in diesem Schritt häufig Satzzeichen entfernt.
02:21
Auch die Wortart eines Wortes kann wichtig sein. Daher kann die Wortart mit einem sogenannten Part-of-Speech-Tagger bestimmt und gespeichert werden. Allerdings gibt es auch Sprachen wie z.B. Deutsch, bei der die Großschreibung eine große grammatikalische Rolle spielt. Bei den Wörtern Arm und Arm ändert die Großschreibung die Bedeutung stark.
02:41
Daher müssen auch hier eventuell sprachspezifische Normalisierungsschritte durchgeführt werden. Die vorher bestimmte Wortart hilft in diesem Fall. Je nach Herkunft des Textes kann es auch nötig sein, Tokens zu korrigieren, also z.B. Rechtschreibfehler zu entfernen. In Texten gibt es häufig Wörter, die irrelevant oder so gut wie irrelevant für die Bedeutung des Textes sind.
03:05
Ein Beispiel dafür sind Artikel, also z.B. der, die, das im Deutschen, und Bindewörter, also z.B. und im Deutschen. Diese Wörter können daher aus dem Text gestrichen werden, ohne dass Inhalt verloren geht. Du kennst solche Wörter bestimmt aus Suchmaschinen.
03:21
Du findest deine Resultate, egal ob du nur die wichtigsten Stichpunkte angibst oder such an Fragen in ganzen Sätzen schreibst. Der Fachbegriff lautet Stop-Wörter im englischen Stop Words. Die Liste der Stop-Wörter kann je nach Anwendung unterschiedlich ausfallen. Je nach Wortart und Stellungumsatz können Wörter verschiedene Formen haben und werden daher als unterschiedliche Wörter wahrgenommen,
03:46
obwohl die grundlegende Bedeutung dieselbe ist. Bei der Lämatisierung werden Wörter in ihre Grundform umgewandelt, also z.B. die Wörter geht, ging und gegangen in gehen. Beim Stemming werden Wörter auf ihren Stamm zurückgeführt, also z.B. geh für gehen.
04:05
Lämatisierung und Stemming kennst du sicher ebenfalls von Suchmaschinen. Du musst nicht sämtliche grammatikalischen Fälle usw. deiner Suchbegriffe durchgehen, um auch Resultate zu finden, bei denen dein Suchbegriff z.B. nur im Genitiv oder nur im Plural verwendet wird.
04:21
Alle genannten Vorverarbeitungsschritte benötigen eigene Algorithmen, in die immer noch viel Forschungsarbeit einfließt. Je nach Sprache gibt es für Pfeifen Funktionen, die dir einen Großteil der Vorverarbeitung abnehmen. In diesem Video hast du einen kleinen Überblick über die verschiedenen Vorverarbeitungsschritte bei der Textverarbeitung bekommen.
Recommendations
Series of 2 media