We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Daten - Vorverarbeitung von strukturierten Daten

00:00

Formal Metadata

Title
Daten - Vorverarbeitung von strukturierten Daten
Title of Series
Number of Parts
79
Author
License
CC Attribution 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language
Production Year2023
Production PlaceHeinrich-Heine-Universität Düsseldorf

Content Metadata

Subject Area
Genre
Abstract
In diesem Video lernst du, worauf du beim Bereinigen deiner Daten achten musst. Du lernst einige Fehlerquellen sowie mögliche Behebungsstrategien kennen. Lernziele: Du identifizierst mögliche Fehlerquellen bei Daten Du gibst mögliche Lösungsstrategien bei Fehlern an
Keywords
JSONXMLComputer animation
Lecture/ConferenceJSONComputer animation
WebsiteLecture/Conference
CodeSuperLearnMachine visionData modelEigenvalues and eigenvectorsComputer animation
Computer animation
AlgorithmMachine learningStrukturierte DatenLecture/Conference
Milan <Programmiersprache>Mathematical economicsComputer scienceInequality (mathematics)Table (information)Row (database)Machine learningComputer animation
Fehlende DatenLecture/Conference
Mathematical economicsComputer scienceMilan <Programmiersprache>Computer animation
Error detection and correctionLecture/Conference
Mathematical economicsComputer scienceMilan <Programmiersprache>Data typeNumberZahlString (computer science)Computer animation
Content (media)Spring (hydrology)Lecture/Conference
Mathematical economicsComputer scienceMilan <Programmiersprache>Uniformer RaumComputer animation
Scientific modellingFunction (mathematics)JSONLecture/Conference
Computer animationXML
Transcript: German(auto-generated)
Wo kommen unsere Daten überhaupt her? Und wie machen wir sie nutzbar? Ein Datenobjekt besteht aus Features, zum Beispiel Name, Geburtsjahr, Matrikelnummer, Studiengang und so weiter für Studierende.
Falls du die Daten selber beschaffst oder aber selbst den Auftrag gibst, ist es sehr wichtig, dir vorher gut zu überlegen, welche Features relevant für die gewünschte Anwendung sind. Falls sie später herausstellt, dass du ein wichtiges Feature vergessen hast, ist es oft zeitaufwendig und teuer, dieses nachträglich zu sammeln, wenn es denn überhaupt möglich ist.
Es gibt aber auch viele öffentlich verfügbare Datensätze, zum Beispiel über die Website Kaggle.com in der Rubrik Datasets. Mit diesen Daten kann man unter anderem seine eigenen Fertigkeiten trainieren.
Leider sind Daten nicht immer so perfekt, wie wir sie haben wollen. Daten können zum Beispiel unvollständig sein, sie können fehlerhaft sein oder auch einfach teilweise irrelevant für die Aufgabe, die zu erfüllen ist. Hier muss dann vor dem Trainieren nachgeholfen werden. Es gilt die Faustregel, Müll rein, Müll raus.
Wer mit Daten von schlechter Qualität trainiert wird, wird das Ergebnis am Ende auch schlecht werden. Achtung, das Bereinigen der Daten ist nicht nur sehr wichtig, sondern häufig auch der aufwendigste Schritt beim Erstellen von Machine Learning Algorithmen. In diesem Video beschäftigen wir uns mit Beispielen von strukturierten Daten.
Ich zeige einige Fehler, die häufig auftreten können. Es kommt natürlich immer auf die spätere Anwendung an, ob diese Fehler korrigiert werden müssen und falls ja, wie viel Zeit darin investiert werden sollte. Angenommen, dein Datensatz ist diese Tabelle. Sie ist natürlich viel zu klein, um damit später tatsächlich ein Machine Learning Modell sinnvoll trainieren zu können.
Als erstes gucken wir uns an, welche Daten unvollständig sind. Hier können wir zeilen und spaltenweise vorgehen. Jede Spalte entspricht einem Feature. Sehen wir uns zuerst leere Felder der Tabelle an. Bei Stefan Wu fehlen sowohl Matrikelnummer als auch Wohnort.
Die Matrikelnummer lässt sich eventuell recherchieren, zum Beispiel durch Vergleiche mit anderen Datensätzen. Hier muss immer der Kostenaufwand beachtet werden. Der Wohnort kann auch approximiert werden. Studierende der HHU wohnen in der Regel in Düsseldorf oder naher Umgebung, sodass Düsseldorf hier ein guter Kandidat für den richtigen Wohnort ist.
Aber Achtung, alle Änderungen an den Daten können Auswirkungen haben. Eine Möglichkeit, mit fehlenden Daten umzugehen, ist es, die entsprechenden Datenobjekte oder Features mit vielen Lücken einfach zu löschen. Je nachdem, wie viele Datenobjekte bzw. Features dies betrifft, kann dadurch aber ein Großteil der Daten verloren gehen.
Manchmal fehlen Daten, weil es sie nicht gibt. Zum Beispiel beim Feature letzte Rückmeldung. Studierende im ersten Semester, die sich noch nie zurückgemeldet haben, haben hier natürlich kein Datum stehen. Hier müsstest du dir dann gut überlegen, wie du mit dem Fall umgehst.
Als nächstes gucken wir uns mögliche Fehler in den Daten an. Auch hier musst du wieder abwägen, wie viel Zeit du aufwendest und welche Nutzen dir die Fehlerkorrektur bringt. Ein häufiger Fehler sind falsche Datentypen in Spalten. Das Feature Matrikelnummer enthält siebenstellige Zahlen. Wir können aber sehen, dass in einer Zeile eine achtstellige Zahl und in einer Zeile ein String steht.
Hier handelt es sich also um Fehler. Manche Features können nur vorher festgelegte Werte annehmen, wie zum Beispiel das Feature Studiengang. Rishi Patel belegt angeblich den Studiengang Wirtschaftsmathematik, den es aber an der HHU nicht gibt.
Hier muss auch nachgebessert werden. Beim Feature Letzte Rückmeldung sehen wir, dass unterschiedliche Datumsformate verwendet wurden, die vereinheitlicht werden müssen. Solche Fehler treten auch häufig bei Preisen auf, wenn unterschiedliche Währungen verwendet und umgerechnet werden müssen.
Häufig müssen wir Daten aus verschiedenen Quellen zusammenführen. Hier solltest du darauf achten, welche Features gleiche Inhalte haben, aber vielleicht anders benannt sind, und welche gleich benannt sind, aber unterschiedliche Inhalte haben. Außerdem können so Duplikate auftreten, die entfernt werden sollten.
Aber Achtung, Jana Müller mit Matrikelnummer 1234567 und Janina Müller mit Matrikelnummer 1234568 können Duplikate mit Tippfehlern sein, aber auch Zwillinge, die sich zusammen an der Uni eingeschrieben haben. Im vorliegenden Beispiel habe ich Fehler per Hand gesucht und bereinigt.
Bei der Anzahl der Datenobjekte, bei denen später trainiert wird, ist dies aber nicht ohne einen unzumutbaren Arbeitsaufwand zu machen. Hilfe bietet zum Beispiel Python mit extra Funktionen zur Datenbereinigung. Es gibt aber auch automatische Datenbereinigungstools.
Je nach Anwendung werden nicht alle Features benötigt, die vorliegen. Das Entfernen von irrelevanten Features und Datenobjekten beschleunigt nicht nur das Training, sondern kann auch die Genauigkeit des trainierten Modells erhöhen. In diesem Video habt Ihr gelernt, mögliche Fehlerquellen bei Daten zu identifizieren und Lösungsstrategien für diese Fehler anzugeben.