Theorie - Bäume und Wälder
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 79 | |
Author | 0000-0002-6229-7378 (ORCID) | |
License | CC Attribution 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/65543 (DOI) | |
Publisher | ||
Release Date | ||
Language | ||
Production Year | 2023 | |
Production Place | Heinrich-Heine-Universität Düsseldorf |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
12
17
18
34
36
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
56
58
59
61
63
66
67
68
69
71
74
75
78
79
00:00
ForestDecision theoryDecision tree learningDecision tree learningBeobachter <Kybernetik>Social classAlgorithmJSONXMLComputer animationMeeting/Interview
02:45
Beobachter <Kybernetik>Social classDesire pathAbstract syntax treeComputer animation
04:37
Beobachter <Kybernetik>Computer animation
05:31
Social classBeobachter <Kybernetik>Decision tree learningPredictionProgram flowchart
07:42
ForestPredictionMachine learningBoom (sailing)
08:24
Set (mathematics)Beobachter <Kybernetik>Computer animation
08:46
Boom (sailing)PrognosequalitätMehrheitsentscheidungPredictionMittelungsverfahrenPredictionLecture/ConferenceComputer animation
09:48
Computer animationXML
Transcript: German(auto-generated)
00:06
Vermutlich hat jede und jeder von uns schon mal im Alltag versucht, eine Entscheidung zu treffen, in dem wir vielleicht auch unbewusst nach und nach bestimmte Kriterien geprüft haben, zum Beispiel bei der Wahl der Freizeitaktivitäten, ob es morgen regnen soll oder trocken bleibt, ob es kalt oder warm wird usw. Auf diesem Prinzip beruhen
00:25
auch Decision Trees und Forests oder auf Deutsch Entscheidungsbäume und Wälder. Sie können auch für Regressionsprobleme verwenden. Hier beschäftigen wir uns jetzt aber erstmal
00:41
nur mit der Klassifikation. Die Idee lässt sich aber ganz einfach auf ein Regressionsproblem übertragen. Zum besseren Verständnis schauen wir uns hier einmal ein klassisches Beispiel aus der Praxis an. Und zwar möchte ein Kreditinstitut eine Entscheidung darüber treffen, ob ein Kreditantrag von einem Kunden oder einer Kundin genehmigt wird oder nicht. Unsere
01:04
Beobachtungen sind hier Antragstellende, die wir entweder der Klasse kreditwürdig oder der Klasse nicht kreditwürdig zuordnen wollen. Wir haben also ein Klassifikationsproblem mit zwei Klassen. Mithilfe unserer Trainingsdaten wollen wir nun ein Decision Tree erstellen.
01:22
Die Trainingsdaten beinhalten Informationen, sagen wir, über 20 bereits abgewickelte Kreditanträge und ihre Antragstellenden. Wir könnten uns zum Beispiel folgende relevante Features vorstellen, mit denen die Kreditwürdigkeit geprüft werden soll. Die Kredithistorie, also ob jemand bereits positiv oder negativ bei Kreditaufnahmen aufgefallen
01:41
ist, das Einkommen und die dauernd bestehenden Beschäftigungsverhältnisse. Wir kennen zudem die jeweilige Klasse der Antragstellenden. Aber wie genau funktioniert jetzt so ein Decision Tree? Wir können ihn uns tatsächlich wie einen echten, nur umgedrehten Baum vorstellen, bei dem man sich von der Wurzel bis zu den Blättern vorarbeitet. Man nennt das auch einen
02:05
Top-Down-Ansatz. Die Wurzel repräsentiert dabei unseren Trainingsdatensatz, in welchem alle Beobachtungen enthalten sind. Der Algorithmus dahinter versucht kurz gesagt, die Wurzel, also die Trainingsdaten, nach und nach in Blätter aufzuspalten und so sogenannte
02:21
Entscheidungsregeln abzuleiten. Die Blätter bestimmen die Klassen und die einzelnen Entscheidungen werden durch die Äste repräsentiert. Tauchen wir mal ein wenig tiefer in die Funktionsweise eines Decision Trees ein. Es gibt sehr viele verschiedene Methoden, wie genau so ein Baum erzeugt werden kann, aber im Grunde verfolgen sie alle eine ähnliche Idee. Zu Beginn betrachten
02:46
wir den vorliegenden Trainingsdatensatz bzw. die Wurzel mit unseren 20 Beobachtungen. Sie werden durch die Punkte repräsentiert. Die 10 blauen Beobachtungen haben die Klasse und die 10 gelben die Klasse nicht kreditwürdig. Die Wurzel soll nun in Teildatensätze,
03:03
sogenannte innere Knoten, aufgeteilt werden. Die Pfade dazwischen sind unsere Äste. Wir sagen hier der Einfachheit halber, dass der Trainingsdatensatz zunächst in zwei Teildatensätze geteilt werden soll. Aber es sind natürlich auch andere Verfahren möglich. Aber wie erfolgt nun diese erste Aufteilung? Wir suchen im Prinzip diejenige Aufteilung,
03:24
welche die sogenannte Verunreinigung in den Teildatensätzen am meisten reduziert. Mit Verunreinigung ist die Vermischung der beiden Klassen gemeint. Unser Ziel ist, dass wir diese Vermischung möglichst gut verringern. Das heißt, wir wollen, dass möglichst viele Beobachtungen in den entstehenden Teildatensätzen nur einer
03:42
bestimmten Klasse angehören. Zum Beispiel könnten wir uns hier anschauen, wie der Anteil an kreditwürdigen und nicht kreditwürdigen Antragstellenden in den Teildatensätzen aussehen würde, wenn wir alle Beobachtungen mit einem hohen Einkommen in den linken und alle mit einem geringen Einkommen in den rechten Teildatensatz packen.
04:03
Wir sehen hier, dass sich die Verunreinigung schon ein wenig verringert. Denn im Gegensatz zur Wurzel gibt es hier jeweils schon eine dominierende Klasse. Schauen wir uns jetzt mal eine Aufteilung der Trainingsdaten bezüglich der Kredithistorie an. Wir sehen, dass sich die Vermischung hier der beiden Klassen noch mehr verringert,
04:21
als bei der Aufteilung bezüglich des Einkommens. Eine Klasse überwiegt hier jeweils deutlich. Das machen wir dann für jedes Feature und schauen, wo die Verunreinigung sich am meisten reduziert. Das ist dann unsere erste Aufteilung der Trainingsdaten. An den so neu entstandenen Teildatensätzen bzw. inneren Knoten wiederholen wir diesen
04:42
Vorgang und suchen wieder die beste Aufteilung. Die untersten Knoten, also die, die nicht weiter aufgeteilt werden, sind dann die Blätter. Unser Ziel ist, dass möglichst viele Beobachtungen in einem Blatt nur einer Klasse angehören. In unserem Beispiel hieße das, dass unser Trainingsdatensatz möglichst gut in kreditwürdige
05:00
und nicht kreditwürdige Beobachtungen getrennt wird. Jetzt kann man sich noch fragen, wie oft wir solche Aufteilungen vornehmen wollen bzw. wie weit wir den Baum wachsen lassen wollen. Hierzu kann man zum Beispiel ein Kriterium wählen, wann das Wachstum bestoppt werden soll, der Baum also gestutzt wird. Ein mögliches Kriterium wäre eine
05:20
erreichte Minimalanzahl an Beobachtungen in den Knoten, also zum Beispiel mindestens 10 Beobachtungen. Zur besseren Veranschaulichung sehen wir uns hier beispielhaft einen möglichen Decision Tree an. Als erstes wurde hier das Feature-Credit-Historie zur Aufteilung verwendet. Beispielsweise befinden sich in den ersten beiden neu
05:41
entstehenden Knoten jetzt auf der linken Seite nur noch Personen mit positiver und auf der rechten Seite nur noch Personen mit negativer Kredit-Historie. Danach wurde das Einkommen und zuletzt die Dauer des bestehenden Beschäftigungsverhältnisses für die weitere Aufteilung ausgesucht. Aber was genau wollen wir jetzt eigentlich mit dem so entstandenen
06:01
Decision Tree machen? Wir wollen neue Beobachtungen, hier neue Antragstellende, einer der beiden Klassen zuordnen. Eine neue Beobachtung ist hier durch den Knoten die Kredit-Historie. Diese hat, sagen wir, eine positive Kredit-Historie, ein hohes Einkommen und eine lange Beschäftigungsdauer. Wir lassen sie
06:21
jetzt dem Fahrt von Entscheidungen, also quasi der Verästelung von der Wurzel bis hin zu den Blättern folgen. An jedem Knoten überprüfen wir, welchem Ast sie folgen muss. Im ersten Knoten schicken wir sie den linken Ast hinunter, da ihre Kredit-Historie positiv ist. Im zweiten Knoten schauen wir uns ihr Einkommen an. Da dies hoch ist, schicken wir
06:43
unsere Beobachtung wieder den linken Ast hinunter. Das gleiche gilt für die Frage nach der Beschäftigungsdauer, welche für unsere Beobachtung lang ist. Unsere Beobachtung landet also im linken Blatt. Die Prognose für diese Beobachtung, also zum Beispiel ob sie kreditwürdig ist oder nicht, richtet sich nach dem Blatt, in welchem sie am Ende
07:03
gelandet ist. Dies könnte dann zum Beispiel die in diesem Blatt vorherrschende Klasse sein. Im linken Blatt sind drei kreditwürdige und eine nicht kreditwürdige Beobachtung enthalten. Die vorherrschende Klasse ist also kreditwürdig. Für unsere neue Beobachtung prognostizieren wir also auch die Klasse kreditwürdig. Wir können unserer Beobachtung aber auch
07:23
eine individuelle Klassenwahrscheinlichkeit zuordnen. Sie entspricht dann dem Anteil an Beobachtungen dieser Klasse im jeweiligen Blatt. Hier wäre es zum Beispiel eine Wahrscheinlichkeit von 75 Prozent zur Klasse kreditwürdig zu gehören und 25 Prozent zur Klasse nicht kreditwürdig zu gehören. Decision Trees haben den Vorteil, dass sie sehr intuitiv
07:46
und anschaulich darstellbar sind. Man kann sie im Vergleich zu anderen Methoden im Machine Learning einfach interpretieren. Ein Nachteil ist, dass Decision Trees dazu tendieren, sehr instabil zu sein. Das heißt, wenn sich die Daten ein wenig verändern, können wir zu komplett anderen Ergebnissen gelangen. Sie machen auch oft weniger treffende
08:05
Vorhersagen als andere Klassifikationsmethoden. Eine Möglichkeit, das zu verbessern, ist mehrere unterschiedliche Bäume zu erzeugen und sie dann zu aggregieren. Man nennt das Decision Forests. Es gibt viele verschiedene Methoden der Aggregation. Beliebt ist hier
08:23
der sogenannte Random Forest. Die Idee ist, jeden Baum innerhalb des Waldes auf Basis für unterschiedlichen Teildaten unseres Trainingsdatensatzes zu bilden. Wir verwenden demnach für jeden Baum zum einen eine veränderte Menge an Beobachtungen und zusätzlich für die
08:40
Knotenaufteilung auch nur eine zufällige Auswahl an Features. Eine Beobachtung wandert nun durch alle Bäume und erhält von jedem Baum eine Prognose. Um eine individuelle Klassenwahrscheinlichkeit für unsere Beobachtung zu erhalten, können wir einfach das Mittel über die Klassenwahrscheinlichkeiten aller Bäume bilden. Eine konkrete Klassenzugehörigkeit für
09:05
eine Beobachtung ergibt sich als einfacher Mehrheitsentscheid über alle Bäume. Durch die Aggregation so ganz vieler unterschiedlicher Bäume verbessern wir die Prognosegüte für unsere neue Beobachtung. Ein Nachteil ist, dass wir einen ganzen Wald nicht mehr so einfach
09:21
nachvollziehen bzw. interpretieren können wie einen einzelnen Baum. Wir kennen jetzt baumbasierte Verfahren der Klassifikation, die man sich glücklicherweise auch tatsächlich wie einen echten, nur umgedrehten Baum vorstellen kann. Sie bilden ganz intuitiv unsere eigene Entscheidungsfindung im Alltag ab. Häufig werden sie auch für medizinische Diagnosen
09:43
oder auch für Prognosen von Bildungsentscheidungen eingesetzt.