We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Daten - Textvorverarbeitung

00:00

Formal Metadata

Title
Daten - Textvorverarbeitung
Title of Series
Number of Parts
79
Author
License
CC Attribution 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language
Production Year2023
Production PlaceHeinrich-Heine-Universität Düsseldorf

Content Metadata

Subject Area
Genre
Abstract
In diesem Video lernst du, welche Vorverarbeitungsschritte notwendig sind, um Textdaten für ein Machine-Learning-Modell verarbeitbar zu machen. Lernziele: Du erklärst Vorverarbeitungsschritte in der Textverarbeitung Du zeigst die Vorverarbeitung beispielhaft
Keywords
JSONXMLComputer animation
Word processorMachine learningNumberCodeString (computer science)Execution unitAngular resolutionZahlToken ringLecture/ConferenceJSONComputer animation
Computer animationMeeting/Interview
WordSearch engine (computing)WritingToken ringForm (programming)Lecture/ConferenceComputer animation
VorverarbeitungWord processorSearch engine (computing)Lecture/ConferenceJSON
Computer animationXML
Transcript: German(auto-generated)
Welche Vorverarbeitungsschritte sind notwendig, damit ein Machine Learning Modell mit Texten umgehen kann? Texte liegen im Computer anhand von Strings vor. Strings sind Zeichenketten, die als Zahlen codiert gespeichert werden.
Eine Codierung ist eine eindeutige und feste Zuordnung von einem Zeichen zu einer Zahl. Die Verarbeitung von Text hängt sehr stark von der späteren Anwendung ab. Die hier vorgestellten Schritte dienen nur als Beispiel, womit man sich bei der Textverarbeitung befassen kann. Insbesondere spielt die Sprache des Textes eine Rolle dabei, welche Schritte wie ausgeführt werden müssen.
Damit eine Maschine unseren Text verstehen kann, unterteilen wir ihn zuerst in Einzelteile, sogenannte Tokens. Es kommt auf die Anwendung an, wie die Aufteilung stattfindet. Aber häufig wird der Text erst in Einzelsätze und dann in seine Einzelwörter aufgeteilt. Es ist also notwendig, den Text von vorne bis hinten durchzugehen und an den Leerzeichen,
Zeilenumbrüchen usw. zu trennen. Je nach Sprache kann es aber auch nötig sein, einen Text in kleinere Einheiten als Wörter aufzuteilen. Jeder kennt bestimmt das berüchtigte Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz, zumindest vom Namen her.
Hier ist es selbst für Menschen noch nötig, das Wort in seine Einzelwortbestandteile aufzuteilen, um es zu verstehen. In diesem Schritt findet manchmal auch eine Auflösung von Verkürzungen statt, wie z.B. das Auflösen von Aufs zu Aufdas. Nach der Aufteilung in Tokens folgt häufig eine Normalisierung.
Für den Computer sind die Wörter Aber und Aber unterschiedliche Wörter. Das kannst du dir deutlich machen, indem du dir die ASCII-Kodierung dieser beiden Wörter anguckst.
Die Großschreibung von Wörtern erfolgt in vielen Sprachen vor allem am Satzanfang, sodass sich die Bedeutung dieser Wörter nicht ändert, nur weil sie groß geschrieben werden. Daher werden häufig alle Tokens einmal durchgegangen und Großbuchstaben in Kleinenbuchstaben umgewandelt. Außerdem werden in diesem Schritt häufig Satzzeichen entfernt.
Auch die Wortart eines Wortes kann wichtig sein. Daher kann die Wortart mit einem sogenannten Part-of-Speech-Tagger bestimmt und gespeichert werden. Allerdings gibt es auch Sprachen wie z.B. Deutsch, bei der die Großschreibung eine große grammatikalische Rolle spielt. Bei den Wörtern Arm und Arm ändert die Großschreibung die Bedeutung stark.
Daher müssen auch hier eventuell sprachspezifische Normalisierungsschritte durchgeführt werden. Die vorher bestimmte Wortart hilft in diesem Fall. Je nach Herkunft des Textes kann es auch nötig sein, Tokens zu korrigieren, also z.B. Rechtschreibfehler zu entfernen. In Texten gibt es häufig Wörter, die irrelevant oder so gut wie irrelevant für die Bedeutung des Textes sind.
Ein Beispiel dafür sind Artikel, also z.B. der, die, das im Deutschen, und Bindewörter, also z.B. und im Deutschen. Diese Wörter können daher aus dem Text gestrichen werden, ohne dass Inhalt verloren geht. Du kennst solche Wörter bestimmt aus Suchmaschinen.
Du findest deine Resultate, egal ob du nur die wichtigsten Stichpunkte angibst oder such an Fragen in ganzen Sätzen schreibst. Der Fachbegriff lautet Stop-Wörter im englischen Stop Words. Die Liste der Stop-Wörter kann je nach Anwendung unterschiedlich ausfallen. Je nach Wortart und Stellungumsatz können Wörter verschiedene Formen haben und werden daher als unterschiedliche Wörter wahrgenommen,
obwohl die grundlegende Bedeutung dieselbe ist. Bei der Lämatisierung werden Wörter in ihre Grundform umgewandelt, also z.B. die Wörter geht, ging und gegangen in gehen. Beim Stemming werden Wörter auf ihren Stamm zurückgeführt, also z.B. geh für gehen.
Lämatisierung und Stemming kennst du sicher ebenfalls von Suchmaschinen. Du musst nicht sämtliche grammatikalischen Fälle usw. deiner Suchbegriffe durchgehen, um auch Resultate zu finden, bei denen dein Suchbegriff z.B. nur im Genitiv oder nur im Plural verwendet wird.
Alle genannten Vorverarbeitungsschritte benötigen eigene Algorithmen, in die immer noch viel Forschungsarbeit einfließt. Je nach Sprache gibt es für Pfeifen Funktionen, die dir einen Großteil der Vorverarbeitung abnehmen. In diesem Video hast du einen kleinen Überblick über die verschiedenen Vorverarbeitungsschritte bei der Textverarbeitung bekommen.