We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Woche 9 : Wie war das nochmal?

00:00

Formal Metadata

Title
Woche 9 : Wie war das nochmal?
Subtitle
Überblick und Ausblick
Title of Series
Number of Parts
79
Author
License
CC Attribution 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language
Production Year2023
Production PlaceHeinrich-Heine-Universität Düsseldorf

Content Metadata

Subject Area
Genre
Abstract
In diesem Video werden die für Woche 9 wichtigen Inhalte aus den vergangenen Wochen wiederholt und ein kurzer Ausblick auf die Inhalte der neunten Woche gegeben sowie Verbindungen zwischen den Inhalten aufgezeigt. Lernziele: Du erinnerst die Definition von Unsupervised Learning Du vollziehst den Grundgedanken der Normalisierung nach Du vollziehst die Zusammenhänge zwischen den Inhalten nach
Keywords
JSONXMLComputer animation
Unsupervised learningPredictionArtificial intelligenceMathematical structurePredictionNeighbourhood (graph theory)Cluster analysisCluster samplingAlgebraic closureRandAutoregulationSet (mathematics)Decision tree learningBeobachter <Kybernetik>Social classAlgorithmModule (mathematics)Zusammenhang <Mathematik>Row (database)Series (mathematics)Computer animationLecture/ConferenceMeeting/Interview
Escape characterETHICSComputer animationXML
Transcript: German(auto-generated)
Vor einiger Zeit haben wir schon mal über Algorithmen gesprochen, die Serien vorschlagen. Aber hast du dich auch schon mal gefragt, warum du beispielsweise andere Serien vorgeschlagen bekommst als eine Freundin oder einen Freund? Oder warum du andere Online-Werbung siehst?
Das könnte daran liegen, dass dich ein Algorithmus in eine andere Kundinnengruppe einsortiert hat, also in eine andere Klasse. Ah, Moment! Die Sache mit den Klassen sollte dir ein Stück weit bekannt vorkommen. Du kennst bereits den K-Nearest-Neighbors-Algorithmus, der Beobachtungen anhand der Klassenzugehörigkeit einer bestimmten Anzahl besonders nahegelegener
Nachbarn einsortiert. Und in der letzten Woche hast du Entscheidungsbäume und Entscheidungswälder kennengelernt, mit deren Hilfe man ebenfalls neue Beobachtungen klassifizieren kann. Und in dieser Woche werden wir uns das Clustering näher anschauen, eine Methode, die gerne bei der Marktsegmentierung oder auch der Teilung von Kundinnengruppen eingesetzt wird. Das Ziel von Clustering ist es,
Daten in vorher unbekannte Gruppen, auch Cluster genannt, aufzuteilen. Dabei sollen die Beobachtungen, die innerhalb eines Clusters liegen, sich möglichst ähnlich sein, während sich die Cluster untereinander möglichst gut voneinander unterscheiden sollen. Die
grundlegende Idee erinnert vielleicht ein kleines bisschen an den K-Nearest-Neighbors-Ansatz. Allerdings werden die Nachbarschaften hier, also beim Clustering, erst noch ermittelt, wenn man so will. Nachbarn mit ähnlichen Eigenschaften werden zu einer Nachbarschaft zusammengefasst und die Nachbarschaften wiederum sollen dann möglichst verschieden sein. Wie die Nachbarschaften werden ermittelt? Ja, richtig gehört. Die
Gruppen oder auch Cluster, in die die Datenmenge eingeteilt wird, stehen am Anfang nicht fest. Das Ziel des Clustering ist es, neue Gruppen bzw. Strukturen in den Daten zu finden. Es geht hier also nicht um Vorhersagen und Prognosen wie beispielsweise bei der Regression, sondern darum, neues Wissen über vorhandene Daten zu gewinnen. Das klingt
nicht so richtig nach Supervised Learning, oder? Stimmt, denn beim Clustering haben wir es mit einer Methode des Unsupervised Learning zu tun. Zur Erinnerung, beim Unsupervised Learning, im Gegensatz zum Supervised Learning, gibt der Mensch nicht vor, was gelernt werden soll. Stattdessen soll das System selbst Strukturen und Zusammenhänge und hier eben Gruppen in
den Daten finden. Wir stellen dir diese Woche das K-Means Clustering vor, das klassischerweise in der Markt- und Kundinnensegmentierung, Stichwort Personalisierte Werbung beispielsweise eingesetzt wird. Mit K wird die Anzahl an Clustern vorgegeben, die wir in den Daten vermuten, beispielsweise nachdem wir die Daten visualisiert haben. Wie das geht, hast du ja schon in Woche 5 gelernt und wie
das K-Means Clustering genau funktioniert, lernst du dann in dieser Woche. Wir erläutern dir die Theorie zunächst und dann erfährst du selbstverständlich auch, wie du Clustering-Modelle in Python erstellen und damit einen Datensatz in Cluster aufteilen kannst. Du ahnst es stimmt schon, auch dafür benötigen wir das Modul Scikit-Learn. Und dir begegnen auch die
Pinguine aus Woche 7 wieder, die wir zur Veranschaulichung des Clustering verwenden. In diesem Zusammenhang erfährst du dann auch, warum es sinnvoll sein kann, die Daten vor dem Clustering zu normalisieren. Was normalisieren ist? Normalisieren hilft dabei, Daten vergleichbar zu machen. Mal ein ganz einfaches Alltagsbeispiel. Nehmen wir an, du möchtest eine bestimmte Reissorte im Laden deines Vertrauens kaufen. Dort wird
Reissorte von drei verschiedenen Marken angeboten und du möchtest gerne die günstigste Variante kaufen. Allerdings bietet die eine Marke 250 Gramm Reis an, die nächste 400 Gramm und die dritte 375 Gramm. Die Menge wirkt sich natürlich auch auf den Preis aus und die Frage ist, welche Marke ist nun insgesamt die günstigste. Dazu ein Tipp. Im Supermarkt
werden auf den Preisschildern in der Regel die Preise für ein Kilo oder manchmal auch für 100 Gramm des Produkts ausgewiesen. Hier kannst du nachschauen, bei welcher Marke ein Kilo Reis am günstigsten ist und weißt so, welche Marke du nehmen willst. Im Prinzip hat die Supermarktleitung oder auch jemand anders die Normalisierung für dich übernommen,
damit du die Preise trotz der verschiedenen Menge des Endprodukts vergleichen kannst. Gut, nicht immer ist in einer Verpackung oder einem Produkt das drin, was draufsteht, aber das ist eine andere Geschichte. Ob das drin ist, was draufsteht, ist auch bei KI-Anwendungen unter ethischen Gesichtspunkten relevant und kann tatsächlich problematisch
werden, wenn wir es mit Ethicswashing zu tun haben. Ethicswashing bezieht sich auf das Phänomen, dass KI-Unternehmen oder auch KI-Projekte beispielsweise sich oft selbst regulieren und eigene Ethikleitlinien aufsetzen. Ethikleitlinien waren am Rande schon mal Thema, als wir über Transparenz gesprochen haben. Kurz zur Erinnerung, Transparenz bezieht sich auf die
Nachvollziehbarkeit der Funktionsweise von KI-Anwendungen und wird oft als Grundsatz in Ethikleitlinien zum Thema künstliche Intelligenz genannt. Das Problem an Leitlinien im Kontext des Ethicswashing, um das es diese Woche geht, ist allerdings, dass sich die Unternehmen nicht immer wirklich an ihre eigenen Leitlinien halten und eine abstrakte Selbstregulierung
hier nicht ausreichend ist, sondern konkrete Leitlinien erforderlich sind, die dann auch umgesetzt werden. In dieser Woche lernst du also mit dem K-Means Clustering eine Methode des Unsupervised Learning kennen. Wir erklären dir, wie diese Methode funktioniert und zeigen dir dann auch, wie du Clustering-Modelle in Python umsetzen
und so auf Cluster-Suche gehen kannst. Im Bereich der Ethik schauen wir uns in dieser Woche das sogenannte Ethicswashing näher an. Und zum Abschluss von Woche 9 haben wir ein spannendes Experteninterview zu Anwendungsbeispielen des Clusterings in den Geisteswissenschaften für dich vorbereitet. Und nun viel Spaß auf der Clusterjagd und in dieser Woche.