Daten - Datenqualität
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 79 | |
Author | 0009-0005-7056-1932 (ORCID) | |
License | CC Attribution 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/65540 (DOI) | |
Publisher | ||
Release Date | ||
Language | ||
Production Year | 2023 | |
Production Place | Heinrich-Heine-Universität Düsseldorf |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
12
17
18
34
36
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
56
58
59
61
63
66
67
68
69
71
74
75
78
79
00:00
JSONXMLComputer animation
00:04
Grand Unified TheoryLecture/Conference
00:15
AbteilungSocial classPredictionData qualityScientific modellingZusammenhang <Mathematik>Mobile appComputer animationLecture/Conference
02:44
Lecture/Conference
03:14
PredictionSocial classFlagComputer animationLecture/Conference
03:37
Prediction
03:48
Scientific modellingPredictionZusammenhang <Mathematik>Probability distributionComputer animationLecture/ConferenceJSON
04:39
Computer animationXML
Transcript: German(auto-generated)
00:05
Wie können wir entscheiden, ob unsere vorliegenden Daten gute Trainingsdaten sind? Für unsere späteren Modelle benötigen wir Daten, auf denen das Modell trainieren kann.
00:21
Eine wichtige Eigenschaft dieser Trainingsdaten ist ihre Qualität. Die Daten müssen passend aufbereitet und bereinigt werden, um später verwendet werden zu können. Viele Modelle arbeiten mit Labeln, also einer Bezeichnung eines Datenobjekts. Beim Training lernt das Modell Zusammenhänge zwischen den Datenobjekten und den dazugehörigen Labeln
00:42
und kann daher später Vorhersagen treffen. Zum Beispiel benötigt ein Modell zum Erkennen von Hunden Trainingsbilder mit den entsprechenden Bezeichnungen Hund oder kein Hund und liefert dann später bei ungelabelten Bildern eine Vorhersage über die Zugehörigkeit zur entsprechenden Kategorie, auch Klasse genannt.
01:02
Weitere Beispiele fürs Labeln beinhalten die Stimmung eines Textes anzugeben, also ob es sich zum Beispiel um ein positives oder negatives Gutachten handelt, oder in einem Ticketsystem Tickets den verschiedenen Abteilungen zuzuordnen. Diese Label werden häufig noch von Menschen erstellt und kosten Zeit und Geld.
01:23
Als Faustformel gilt, je mehr richtige Label im Trainingsprozess, desto besser die Qualität des Trainings. Allerdings muss natürlich immer abgeweckt werden, ob es den Zeit- und Kostenaufwand lohnt, die Daten genauer zu machen für die Qualitätsverbesserung, die erreicht wird. Je wichtiger die Genauigkeit des trainierten Modells ist, desto wichtiger ist auch die Genauigkeit der Daten.
01:46
Ein Modell, das medizinische Diagnosen gibt oder das bei selbstfahrenden Autos Hindernisse auf der Straße erkennt, muss genauer sein, als das eben genutzte Beispielmodell, das Hunde erkennen kann. Es gibt allerdings auch Fallen im Bereich Datenqualität.
02:02
Was wir persönlich als hochwertige Daten bezeichnen, muss nicht automatisch auf das Modell übertragbar sein. Vielmehr kommt es darauf an, für welche Daten unser Modell überhaupt trainiert werden soll. Ein gutes Beispiel dafür sind Bilder. Angenommen, wir wollen eine App erstellen, die anhand von Benutzern hochgeladenen Bildern Pflanzenarten erkennt.
02:24
Als Trainingsdaten nehmen wir hochwertige Fotografenfotos, wie zum Beispiel das von diesem Farm. Diese Fotos zeichnen aus, dass sie eine hohe Auflösung haben, scharf sind, gut beleuchtet sind und häufig einer gewissen Komposition folgen, also zum Beispiel das Zielobjekt in der Mitte haben usw.
02:44
Das entspricht aber nicht den Fotos, die die Benutzer später schießen, um unbekannte Pflanzen erkennen zu lassen. Dabei handelt es sich eher um Schnappschüsse, die eine deutlich geringere Auflösung haben, unscharf sind, zu viel oder zu wenig beleuchtet wurden, aus untypischen Winkeln geschossen wurden,
03:07
das Zielobjekt nicht in der Mitte haben usw. und sofort. Wichtig ist auch die Vielfalt der Daten. Falls ein Modell zum Beispiel die Klassenzugehörigkeit von Daten vorhersagen soll,
03:22
müssen ausreichend Trainingsdaten für jede Klasse vorhanden sein. Ein Modell kann keinen Fahnen erkennen, wenn es nicht mit ausreichend Beispielen dafür trainiert wurde. Außerdem ist es wichtig, dass auch die Vielfalt innerhalb einer Klasse abgedeckt wird. Wenn unser Modell das Hunde erkennen soll, nur mit Bildern von schwarzen Hunden trainiert wird,
03:42
kann es zu falschen Vorhersagen kommen, wenn ein weißer Pudel erkannt werden soll. Natürlich ist es je nach Anwendung manchmal nicht möglich, genug echte Trainingsdaten zu erhalten. Dafür gibt es oft Tricks, trotzdem ein ziemlich genaues Modell zu erhalten. Es gibt zum Beispiel die Möglichkeit, die echten Trainingsdaten mit anderen zu mischen,
04:05
also in unserem Beispiel Fotografenfotos, künstlich erzeugte Fotos usw. Bitte recherchiert vorher, ob so ein Vorgehen in eurem Anwendungsfall geeignet ist. In diesem Video habt ihr den Zusammenhang zwischen guten Trainingsdaten
04:21
und der Genauigkeit der Vorhersagen eures Modells kennengelernt. Ihr könnt jetzt Beispiele für gute und schlechte Verteilungen von Trainingsdaten angeben und begründen, wie so eine gegebene Verteilung von Trainingsdaten besser oder schlechter für eine Anwendung geeignet ist als andere.
Recommendations
Series of 2 media