We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Theorie - Bäume und Wälder

00:00

Formal Metadata

Title
Theorie - Bäume und Wälder
Title of Series
Number of Parts
79
Author
License
CC Attribution 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language
Production Year2023
Production PlaceHeinrich-Heine-Universität Düsseldorf

Content Metadata

Subject Area
Genre
Abstract
In diesem Video stellen wir zwei weitere beliebte Klassifikations-Verfahren aus dem supervised learning vor, den decision tree (Entscheidungsbaum) und den decision forest (Entscheidungswald). Anhand eines Beispiels lernen wir die Idee und Vorgehensweise dieser Verfahren kennen. Lernziele: Du erläuterst die Idee und Vorgehensweise eines decision trees und random forests Du wendest die Vorgehensweise der Verfahren auf ein neues Beispiel an Du nennst Beispiele, wozu man decision trees und random forests verwendet
Keywords
ForestDecision theoryDecision tree learningDecision tree learningBeobachter <Kybernetik>Social classAlgorithmJSONXMLComputer animationMeeting/Interview
Beobachter <Kybernetik>Social classDesire pathAbstract syntax treeComputer animation
Beobachter <Kybernetik>Computer animation
Social classBeobachter <Kybernetik>Decision tree learningPredictionProgram flowchart
ForestPredictionMachine learningBoom (sailing)
Set (mathematics)Beobachter <Kybernetik>Computer animation
Boom (sailing)PrognosequalitätMehrheitsentscheidungPredictionMittelungsverfahrenPredictionLecture/ConferenceComputer animation
Computer animationXML
Transcript: German(auto-generated)
Vermutlich hat jede und jeder von uns schon mal im Alltag versucht, eine Entscheidung zu treffen, in dem wir vielleicht auch unbewusst nach und nach bestimmte Kriterien geprüft haben, zum Beispiel bei der Wahl der Freizeitaktivitäten, ob es morgen regnen soll oder trocken bleibt, ob es kalt oder warm wird usw. Auf diesem Prinzip beruhen
auch Decision Trees und Forests oder auf Deutsch Entscheidungsbäume und Wälder. Sie können auch für Regressionsprobleme verwenden. Hier beschäftigen wir uns jetzt aber erstmal
nur mit der Klassifikation. Die Idee lässt sich aber ganz einfach auf ein Regressionsproblem übertragen. Zum besseren Verständnis schauen wir uns hier einmal ein klassisches Beispiel aus der Praxis an. Und zwar möchte ein Kreditinstitut eine Entscheidung darüber treffen, ob ein Kreditantrag von einem Kunden oder einer Kundin genehmigt wird oder nicht. Unsere
Beobachtungen sind hier Antragstellende, die wir entweder der Klasse kreditwürdig oder der Klasse nicht kreditwürdig zuordnen wollen. Wir haben also ein Klassifikationsproblem mit zwei Klassen. Mithilfe unserer Trainingsdaten wollen wir nun ein Decision Tree erstellen.
Die Trainingsdaten beinhalten Informationen, sagen wir, über 20 bereits abgewickelte Kreditanträge und ihre Antragstellenden. Wir könnten uns zum Beispiel folgende relevante Features vorstellen, mit denen die Kreditwürdigkeit geprüft werden soll. Die Kredithistorie, also ob jemand bereits positiv oder negativ bei Kreditaufnahmen aufgefallen
ist, das Einkommen und die dauernd bestehenden Beschäftigungsverhältnisse. Wir kennen zudem die jeweilige Klasse der Antragstellenden. Aber wie genau funktioniert jetzt so ein Decision Tree? Wir können ihn uns tatsächlich wie einen echten, nur umgedrehten Baum vorstellen, bei dem man sich von der Wurzel bis zu den Blättern vorarbeitet. Man nennt das auch einen
Top-Down-Ansatz. Die Wurzel repräsentiert dabei unseren Trainingsdatensatz, in welchem alle Beobachtungen enthalten sind. Der Algorithmus dahinter versucht kurz gesagt, die Wurzel, also die Trainingsdaten, nach und nach in Blätter aufzuspalten und so sogenannte
Entscheidungsregeln abzuleiten. Die Blätter bestimmen die Klassen und die einzelnen Entscheidungen werden durch die Äste repräsentiert. Tauchen wir mal ein wenig tiefer in die Funktionsweise eines Decision Trees ein. Es gibt sehr viele verschiedene Methoden, wie genau so ein Baum erzeugt werden kann, aber im Grunde verfolgen sie alle eine ähnliche Idee. Zu Beginn betrachten
wir den vorliegenden Trainingsdatensatz bzw. die Wurzel mit unseren 20 Beobachtungen. Sie werden durch die Punkte repräsentiert. Die 10 blauen Beobachtungen haben die Klasse und die 10 gelben die Klasse nicht kreditwürdig. Die Wurzel soll nun in Teildatensätze,
sogenannte innere Knoten, aufgeteilt werden. Die Pfade dazwischen sind unsere Äste. Wir sagen hier der Einfachheit halber, dass der Trainingsdatensatz zunächst in zwei Teildatensätze geteilt werden soll. Aber es sind natürlich auch andere Verfahren möglich. Aber wie erfolgt nun diese erste Aufteilung? Wir suchen im Prinzip diejenige Aufteilung,
welche die sogenannte Verunreinigung in den Teildatensätzen am meisten reduziert. Mit Verunreinigung ist die Vermischung der beiden Klassen gemeint. Unser Ziel ist, dass wir diese Vermischung möglichst gut verringern. Das heißt, wir wollen, dass möglichst viele Beobachtungen in den entstehenden Teildatensätzen nur einer
bestimmten Klasse angehören. Zum Beispiel könnten wir uns hier anschauen, wie der Anteil an kreditwürdigen und nicht kreditwürdigen Antragstellenden in den Teildatensätzen aussehen würde, wenn wir alle Beobachtungen mit einem hohen Einkommen in den linken und alle mit einem geringen Einkommen in den rechten Teildatensatz packen.
Wir sehen hier, dass sich die Verunreinigung schon ein wenig verringert. Denn im Gegensatz zur Wurzel gibt es hier jeweils schon eine dominierende Klasse. Schauen wir uns jetzt mal eine Aufteilung der Trainingsdaten bezüglich der Kredithistorie an. Wir sehen, dass sich die Vermischung hier der beiden Klassen noch mehr verringert,
als bei der Aufteilung bezüglich des Einkommens. Eine Klasse überwiegt hier jeweils deutlich. Das machen wir dann für jedes Feature und schauen, wo die Verunreinigung sich am meisten reduziert. Das ist dann unsere erste Aufteilung der Trainingsdaten. An den so neu entstandenen Teildatensätzen bzw. inneren Knoten wiederholen wir diesen
Vorgang und suchen wieder die beste Aufteilung. Die untersten Knoten, also die, die nicht weiter aufgeteilt werden, sind dann die Blätter. Unser Ziel ist, dass möglichst viele Beobachtungen in einem Blatt nur einer Klasse angehören. In unserem Beispiel hieße das, dass unser Trainingsdatensatz möglichst gut in kreditwürdige
und nicht kreditwürdige Beobachtungen getrennt wird. Jetzt kann man sich noch fragen, wie oft wir solche Aufteilungen vornehmen wollen bzw. wie weit wir den Baum wachsen lassen wollen. Hierzu kann man zum Beispiel ein Kriterium wählen, wann das Wachstum bestoppt werden soll, der Baum also gestutzt wird. Ein mögliches Kriterium wäre eine
erreichte Minimalanzahl an Beobachtungen in den Knoten, also zum Beispiel mindestens 10 Beobachtungen. Zur besseren Veranschaulichung sehen wir uns hier beispielhaft einen möglichen Decision Tree an. Als erstes wurde hier das Feature-Credit-Historie zur Aufteilung verwendet. Beispielsweise befinden sich in den ersten beiden neu
entstehenden Knoten jetzt auf der linken Seite nur noch Personen mit positiver und auf der rechten Seite nur noch Personen mit negativer Kredit-Historie. Danach wurde das Einkommen und zuletzt die Dauer des bestehenden Beschäftigungsverhältnisses für die weitere Aufteilung ausgesucht. Aber was genau wollen wir jetzt eigentlich mit dem so entstandenen
Decision Tree machen? Wir wollen neue Beobachtungen, hier neue Antragstellende, einer der beiden Klassen zuordnen. Eine neue Beobachtung ist hier durch den Knoten die Kredit-Historie. Diese hat, sagen wir, eine positive Kredit-Historie, ein hohes Einkommen und eine lange Beschäftigungsdauer. Wir lassen sie
jetzt dem Fahrt von Entscheidungen, also quasi der Verästelung von der Wurzel bis hin zu den Blättern folgen. An jedem Knoten überprüfen wir, welchem Ast sie folgen muss. Im ersten Knoten schicken wir sie den linken Ast hinunter, da ihre Kredit-Historie positiv ist. Im zweiten Knoten schauen wir uns ihr Einkommen an. Da dies hoch ist, schicken wir
unsere Beobachtung wieder den linken Ast hinunter. Das gleiche gilt für die Frage nach der Beschäftigungsdauer, welche für unsere Beobachtung lang ist. Unsere Beobachtung landet also im linken Blatt. Die Prognose für diese Beobachtung, also zum Beispiel ob sie kreditwürdig ist oder nicht, richtet sich nach dem Blatt, in welchem sie am Ende
gelandet ist. Dies könnte dann zum Beispiel die in diesem Blatt vorherrschende Klasse sein. Im linken Blatt sind drei kreditwürdige und eine nicht kreditwürdige Beobachtung enthalten. Die vorherrschende Klasse ist also kreditwürdig. Für unsere neue Beobachtung prognostizieren wir also auch die Klasse kreditwürdig. Wir können unserer Beobachtung aber auch
eine individuelle Klassenwahrscheinlichkeit zuordnen. Sie entspricht dann dem Anteil an Beobachtungen dieser Klasse im jeweiligen Blatt. Hier wäre es zum Beispiel eine Wahrscheinlichkeit von 75 Prozent zur Klasse kreditwürdig zu gehören und 25 Prozent zur Klasse nicht kreditwürdig zu gehören. Decision Trees haben den Vorteil, dass sie sehr intuitiv
und anschaulich darstellbar sind. Man kann sie im Vergleich zu anderen Methoden im Machine Learning einfach interpretieren. Ein Nachteil ist, dass Decision Trees dazu tendieren, sehr instabil zu sein. Das heißt, wenn sich die Daten ein wenig verändern, können wir zu komplett anderen Ergebnissen gelangen. Sie machen auch oft weniger treffende
Vorhersagen als andere Klassifikationsmethoden. Eine Möglichkeit, das zu verbessern, ist mehrere unterschiedliche Bäume zu erzeugen und sie dann zu aggregieren. Man nennt das Decision Forests. Es gibt viele verschiedene Methoden der Aggregation. Beliebt ist hier
der sogenannte Random Forest. Die Idee ist, jeden Baum innerhalb des Waldes auf Basis für unterschiedlichen Teildaten unseres Trainingsdatensatzes zu bilden. Wir verwenden demnach für jeden Baum zum einen eine veränderte Menge an Beobachtungen und zusätzlich für die
Knotenaufteilung auch nur eine zufällige Auswahl an Features. Eine Beobachtung wandert nun durch alle Bäume und erhält von jedem Baum eine Prognose. Um eine individuelle Klassenwahrscheinlichkeit für unsere Beobachtung zu erhalten, können wir einfach das Mittel über die Klassenwahrscheinlichkeiten aller Bäume bilden. Eine konkrete Klassenzugehörigkeit für
eine Beobachtung ergibt sich als einfacher Mehrheitsentscheid über alle Bäume. Durch die Aggregation so ganz vieler unterschiedlicher Bäume verbessern wir die Prognosegüte für unsere neue Beobachtung. Ein Nachteil ist, dass wir einen ganzen Wald nicht mehr so einfach
nachvollziehen bzw. interpretieren können wie einen einzelnen Baum. Wir kennen jetzt baumbasierte Verfahren der Klassifikation, die man sich glücklicherweise auch tatsächlich wie einen echten, nur umgedrehten Baum vorstellen kann. Sie bilden ganz intuitiv unsere eigene Entscheidungsfindung im Alltag ab. Häufig werden sie auch für medizinische Diagnosen
oder auch für Prognosen von Bildungsentscheidungen eingesetzt.