Woche 6 : Wie war das nochmal?
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Subtitle |
| |
Title of Series | ||
Number of Parts | 79 | |
Author | 0000-0002-8080-349X (ORCID) | |
License | CC Attribution 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/65514 (DOI) | |
Publisher | ||
Release Date | ||
Language | ||
Production Year | 2023 | |
Production Place | Heinrich-Heine-Universität Düsseldorf |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
12
17
18
34
36
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
56
58
59
61
63
66
67
68
69
71
74
75
78
79
00:00
Linear regressionCategory of beingLinear regressionZusammenhang <Mathematik>Kategoriale DatenTestmengeModule (mathematics)IntegerData structurePredictionRow (database)Grand Unified TheoryRegressionsmodellDecision tree learningSystems <München>Scientific modellingArtificial neural networkFocus (optics)CurveMachine learningSystem identificationOutlierLine (geometry)JSONXMLComputer animationMeeting/InterviewLecture/Conference
06:19
Computer animationXML
Transcript: German(auto-generated)
00:09
In der dritten Woche dieses Kurses hast du gelernt, dass sich maschinelles Lernen in zwei Teile oder Felder einteilen lässt. Und natürlich in die drei Kategorien methodisch betrachtet, aber die kannst du mittlerweile bestimmt schon runter beten. Zurück zu den Teilen. Es gibt
00:24
ein neueres Feld, bzw. einen neueren Teil des maschinellen Lerns, nämlich das Deep Learning oder auch das Tiefe Lernen aus Daten mit seinen Modellen den neuronalen Netzen. Und es gibt einen eher traditionelleren Teil, der sich mit statistischen Lernmethoden wie Entscheidungsbäumen linearer Regression oder Clustering beschäftigt. Der Vorteil,
00:43
diese Lernmethoden funktionieren im Gegensatz zu Deep Learning auch mit kleineren Datenmengen schon ziemlich gut. Aber warum erzähle ich dir das? Ich erzähle dir das, weil wir uns in dieser Woche näher mit einer dieser statistischen Lernmethoden beschäftigen wollen. Also ehrlich gesagt, Achtung Spoiler, werden dir alle gerade genannten Lernmethoden in den nächsten
01:02
Wochen begegnen, aber irgendwo müssen wir ja anfangen. Und diese Woche steht die Regression im Rampenlicht. Bei der Regression handelt es sich um ein Verfahren des Supervised Learnings. Supervised Learning haben wir uns ja in der letzten Woche schon näher beschäftigt. Mithilfe einer Regression kann man Zusammenhänge zwischen einer Zielgröße oder einem Zielmerkmal
01:25
wie sagen wir der Wohnungsmiete und verschiedenen anderen Features oder anderen Merkmalen wie beispielsweise der Wohnungsgröße bestimmen. Exemplarisch lernst du in dieser Woche die lineare Regression und die logistische Regression kennen. Eine lineare Regression wird eingesetzt, wenn sich der Zusammenhang zwischen dem Zielmerkmal und einem Feature
01:44
optisch durch eine gerade Linie, also durch eine Gerade beschreiben lässt. Eine logistische Regression wird verwendet, wenn wir den Zusammenhang zwischen einem Feature und der Wahrscheinlichkeit in eine von zwei Kategorien des Zielmerkmals zu fallen messen wollen. Dieser Zusammenhang lässt sich dann mit einer S-Kurve beschreiben.
02:01
Für Regressionen werden in der Regel metrische Zielmerkmale verwendet. Metrisch? Da klingelt was, oder? Zu Beginn dieses Kurses hast du schon gehört, was metrische Daten sind. Sie werden auch als numerische Daten bezeichnet und umfassend ganz einfach gesagt Zahlen, also natürliche Zahlen, ganze Zahlen und Kommazahlen. Moment, aber eben war doch auch
02:23
von Kategorien die Rede. Sehr gut aufgepasst. Logistische Regressionen können für kategoriale Merkmale mit zwei Ausprägungen verwendet werden. Auch hier kurz zur Erinnerung, was kategoriale Daten nochmal waren. Kategoriale Daten können Kategorien wie Studienfächer oder auch Wohnorte
02:40
sein oder auch Skalen, bei denen nicht die Werte selbst entscheiden sind, sondern eher ihre Reihenfolge. Als Zielmerkmal werden bei einer logistischen Regression jedoch nicht die Kategorien selbst verwendet, sondern die Wahrscheinlichkeit zu einer dieser Kategorien zu gehören. Und diese Wahrscheinlichkeit ist wieder metrisch. Unabhängig von metrischen und kategorialen Daten und von der Art der Regression ist das Ziel einer Regression
03:04
jedoch das Gleiche. Mithilfe der Geraden oder der Kurve können wir Zusammenhänge zwischen dem Zielmerkmal und den Feature beschreiben und so Vorhersagen für neue Werte eines Features im Hinblick auf das Zielmerkmal machen. Also beispielsweise für eine neue Wohnung mit einer bestimmten Größe, die voraussichtliche Miete vorhersagen.
03:24
Also so viel zur Theorie. Wie du vielleicht schon geahnt hast, zeigen wir dir diese Woche dann aber auch, wie Regressionen bzw. die dazugehörigen Regressionsmodelle in Python umgesetzt werden können. Dafür benötigst du sowohl die Datenstruktur NumPy array, die du bereits kennst, als auch ein neues Modul, nämlich Scikit-Learn. Mithilfe dieses
03:43
Moduls zeigen wir dir unter anderem, wie du ein Regressionsmodell trainieren kannst. Und wie so ein Training funktioniert, weißt du schon aus der letzten Woche. Wird ein KI-basiertes System trainiert, dann ist das Ziel dieses Trainings, dass das Modell für neue und unbekannte Inputdaten eine gute Vorhersage treffen kann. Um ein System zu trainieren,
04:05
teilen wir unseren Datensatz zunächst in eine Trainings- und eine Testmenge auf, die sich nicht überschneiden dürfen. Mit der Trainingsmenge, die in der Regel größer als die Testmenge ist, lernt das System Zusammenhänge zwischen den Daten, also beispielsweise zwischen dem Zielmerkmal und einem Feature. Mit der Testmenge wird
04:21
dann überprüft, ob das System, basierend auf dem, was es mit den Trainingsdaten gelernt hat, auch für die neuen Daten der Testmenge gute Vorhersagen trifft. Wenn man bereits schon während des Trainings testen will, kann man auch noch eine sogenannte Validierungsmenge erstellen. Bei Trainings-, Validierungs- und Testmenge müssen wir jedoch sicherstellen, dass sie repräsentativ für unsere gesamten Daten sind, wie also beispielsweise gleich viele
04:44
Hunde- und Katzenbilder in der jeweiligen Menge haben. Wenn die Trainingsmenge beispielsweise viel mehr Hunde als Katzenbilder enthält, kann das System zwar Hunde gut erkennen, wird aber bei Katzenbildern eher schlecht aufgestellt sein. Aber nicht nur die Repräsentativität der Daten kann einen Einfluss auf die Vorhersagequalität des
05:03
Systems haben. In dieser Woche wollen wir auch noch einen näheren Blick darauf werfen, was passiert, wenn man die Komplexität des Zusammenhangs zwischen Zielmerkmal und Feature über bzw. unterschätzt. Das bezeichnet man dann als Overfitting, also Überanpassung bzw. als Underfitting, also Unteranpassung. Und auch über Outlier bzw. Ausreißer wollen
05:24
wir diese Woche sprechen, sowie über ihre Auswirkungen auf das Training eines Systems. In dieser Woche steht also die Regression im Fokus. Zunächst lernst du den theoretischen Hintergrund der linearen und logistischen Regression kennen. Im Anschluss zeigen wir dir
05:41
dann selbstverständlich auch, wie du ein Regressionsmodell in Python erstellen und trainieren kannst. Wir werden in dieser Woche aber auch noch mal einen näheren Blick auf das Training von Systemen werfen und dir Überanpassung, Unteranpassung und Ausreißer vorstellen. Und abschließend haben wir dann noch ein paar Anwendungsbeispiele für Regressionen für dich zusammengestellt. Beispielsweise anhand der Frage, ob mehr Geld glücklicher
06:03
macht. Mithilfe von Störchen und Babys wollen wir dann aber auch noch auf einen im Alltag weit verbreiteten Fehler hinweisen. Ein Zusammenhang zwischen Merkmalen alleine sagt nichts über Ursache und Wirkung aus. Also Augen auf bei Scheinzusammenhängen und viel Spaß in Woche 6.