Woche 7 : Wie war das nochmal?
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Subtitle |
| |
Title of Series | ||
Number of Parts | 79 | |
Author | 0000-0002-8080-349X (ORCID) | |
License | CC Attribution 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/65516 (DOI) | |
Publisher | ||
Release Date | ||
Language | ||
Production Year | 2023 | |
Production Place | Heinrich-Heine-Universität Düsseldorf |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
12
17
18
34
36
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
56
58
59
61
63
66
67
68
69
71
74
75
78
79
00:00
JSONXMLComputer animation
00:05
Beobachter <Kybernetik>Linear regressionMassSystems <München>QualitätsmaßAlgorithmScientific modellingModule (mathematics)PredictionMachine learningStatisticsPINGUIN <Benutzeroberfläche>Artificial intelligenceSocial classZusammenhang <Mathematik>InformationKategoriale DatenMeeting/InterviewXML
05:59
Computer animationXML
Transcript: German(auto-generated)
00:09
In der letzten Woche hast du die logistische und die lineare Regression als Beispiele für statistische Lernmethoden im Bereich des maschinellen Lernens kennengelernt. Mit Hilfe einer Regression kann man Zusammenhänge zwischen Zielmerkmalen und Features bestimmen
00:23
und dann bei neuen Beobachtungen Vorhersagen für das Zielmerkmal treffen. Das hat jetzt nichts mit Wahrsagerei oder mit Kristallkugeln zu tun, sondern mit Statistik. Und wir bleiben auch in dieser Woche bei statistischen Lernmethoden. Ich hatte ja schon angekündigt, dass dir einige begegnen werden.
00:40
Diese Woche geht es um den sogenannten k-nearest-neighbors-Algorithmus oder auch k-nächste-nachbarn-Algorithmus. Mit diesem Algorithmus lassen sich Beobachtungen klassifizieren und dafür kommt es auf die Nachbarn dieser Beobachtungen in einer Datenmenge an. Der k-nearest-neighbors-Algorithmus wird häufig für Klassifikationen verwendet.
01:03
Eine neue Beobachtung wird anhand ihrer Features oder Eigenschaften einer Kategorie auch klassegenon zugeordnet. Es geht hier also wieder um kategoriale Daten, die in der vergangenen Woche bereits bei der logistischen Regression, die mit der S-Kurve, relevant waren. Kurze Wiederholung, kategoriale Daten sind beispielsweise Studienfächer, Wohnorte
01:22
oder auch Vereinsmitgliedschaften. Ok, es geht also um die Zuordnung von neuen Beobachtungen zu einer bestimmten Klasse. Aber wie funktioniert das Ganze? Im Prinzip ist es eine Frage der Nachbarschaft. Der K-N-N-Algorithmus geht davon aus, dass ähnliche Dinge oder ähnliche Personen auch ähnliche Eigenschaften haben.
01:41
Um diese Ähnlichkeit zu bestimmen, wird die Nähe zwischen den Datenpunkten herangezogen. Der Algorithmus schaut sich eine bestimmte Anzahl von Nachbarn, die wir mit K vorgeben, an, die in der Datenmenge am nächsten an unserer neuen Beobachtung liegen und ordnet die neue Beobachtung dann der Klasse zu, zu der die meisten der einbezogene Nachbarn gehören. Dieser Ansatz wird auch als lazy oder träge bezeichnet.
02:02
Neue Beobachtungen werden nämlich einfach mit den Trainingsdaten verglichen und dann eingeordnet. Es ist also in dem Sinne kein Training erforderlich. Auch wenn kein Training erforderlich ist, programmieren muss man den Algorithmus trotzdem. Und daher zeigen wir dir in Python am Beispiel von Pinguin direkt auch, wie du einen K-N-N-Algorithmus umsetzen kannst.
02:22
Dafür brauchst du nochmal das Modul CycldLearn aus der letzten Woche und auch Numpy Aries werden wieder relevant. Und dir begegnet auch ein Qualitätsmaß aus Woche 5 wieder, die Genauigkeit oder Accuracy. Mit Hilfe dieses Maßes kannst du überprüfen, wie gut dein K-N-N-Algorithmus arbeitet. Was war Accuracy nochmal genau? Accuracy oder Genauigkeit beschreibt das Verhältnis der korrekten Klassifikation
02:44
zu den insgesamt vorgenommenen Klassifikationen. Es geht also darum, wie viele der gemachten Klassifikationen korrekt waren. Wenn also beispielsweise 19 von 20 Hunde und Katzenbildern korrekt als Hund bzw. Katze identifiziert wurden, liegt die Accuracy des Systems bei 95 Prozent.
03:00
Und diesen Accuracy-Wert kannst du dir auch in Python ausgeben lassen. Aber nochmal zurück zu unseren statistischen Lernmethoden. Sowohl Regressionen als auch K-N-N-Algorithmen benötigen Features oder Eigenschaften von Beobachtungen. Das klingt jetzt erst mal so, als wäre es immer gut, möglichst viele Features und damit auch möglichst viele Informationen zur Verfügung zu haben. Aber gibt es auch einen zu viel bei Features?
03:27
In der letzten Woche hast du bereits gelernt, was passiert, wenn man die Komplexität des Zusammenhangs zwischen Zielmerkmal und Feature über bzw. unterschätzt. Aber auch zu viele Features können ein Problem beim Training unserer Modelle werden. Denn je nachdem, mit welcher Funktion ein Modell arbeitet, werden alle
03:42
Features als gleich wichtig betrachtet. Haben wir aber eigentlich unwichtige Features dabei, wird die Vorhersage oder die Klassifikation des Modells dadurch schlechter. Ein weiteres Problem, mit jedem Feature werden auch mehr Daten benötigt, um das Modell zu trainieren. Und das kann sehr schnell ziemliche Ausmaße annehmen.
04:00
Das wird auch gerne als Flucht der Dimensionalität bezeichnet. Und auch das wollen wir uns in dieser Woche näher anschauen. Denn darauf sollte man ebenfalls bei der Wahl seiner Trainingsdaten achten. Über Trainingsdaten hast du ja schon viel gehört. Und du lernst in dieser Woche bereits die zweite statistische Lernmethode des maschinellen Lernens kennen. Das ist schon einiges. Und du weißt auch bereits, dass es ethisch einiges zu beachten gibt.
04:22
Um KI-Systeme einschätzen zu können, ist es also offensichtlich nicht verkehrt zu wissen, was KI eigentlich tut. Zu wissen bzw. nachvollziehen zu können, was ein KI-basiertes System tut, ist aus vielen Gründen wichtig. Es hilft beispielsweise dabei, Akteurinnen und Akteure
04:42
für negative Konsequenzen der KI-Anwendung verantwortlich zu machen. Stichwort Rechenschaftspflicht. Weil nachvollzogen werden kann, woran ein bestimmtes Fehlverhalten liegt. Es trägt aber auch zu der Akzeptanz von KI-basierten Systemen bei, wenn den Menschen klar ist, wie diese Systeme funktionieren bzw. arbeiten. Daher ist es vielleicht nicht überraschend, dass Transparenz
05:02
einer der Grundsätze ist, die in ethischen Leitlinien zum Thema künstliche Intelligenz besonders oft genannt werden. Transparenz bezieht sich auf das Ausmaß, in dem die innere Funktionsweise eines KI-Systems für den Menschen offen und erklärbar, also nachvollziehbar ist. Kann man die Funktionsweise eines Systems nicht nachvollziehen,
05:21
spricht man übrigens von sogenannten Blackbox-KI-System. In dieser Woche lernst du also den K-Nearest-Neighbors-Algorithmus kennen und wir zeigen dir auch direkt, wie du ihn in Python umsetzen kannst. Wir werden außerdem über Transparenz bei Systemen sprechen, die auf künstlicher Intelligenz basieren.
05:40
Zusätzlich wird es um den Fluch der Dimensionalität gehen und du erfährst, was man dagegen tun kann. Und abschließend haben wir dann noch ein paar Anwendungsbeispiele für den KNN-Algorithmus für dich zusammengestellt. Und wer weiß, vielleicht siehst du deine Nachbarschaft demnächst mit ganz anderen Augen. Aber jetzt erstmal viel Spaß in dieser Woche.