Auditing und Testing: Technische Herausforderung im Umgang mit ADM-Verfahren
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 69 | |
Author | ||
License | No Open Access License: German copyright law applies. This film may be used for your own use but it may not be distributed via the internet or passed on to external parties. | |
Identifiers | 10.5446/40375 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
|
#INFORMATIK201860 / 69
8
17
34
35
36
48
00:00
Computer scienceTangible user interfaceDatabaseSet (mathematics)Machine learningCodeMathematicsComputer programmingLinear regressionCorrelation and dependenceArtificial neural networkStatisticsInformationDecision theoryFunction (mathematics)AlgorithmZusammenhang <Mathematik>ZahlProfessional network serviceScientific modellingIBMKnowledge representation and reasoningSystems <München>Interior (topology)Cross-platformMilitary operationMetric systemVariable (mathematics)Strukturierte DatenStatistical hypothesis testingInferenceBIAS <Programm>Domain nameStatistisches ModellParameter (computer programming)StreckeAttribute grammarMachine learningTable (information)RegressionsmodellPlane (geometry)VECTOR <Programm>VelocityDecision tree learningDirection (geometry)Information retrievalPerspective (visual)StatistikerTestdatenWell-formed formulaPrädiktorOffice <Programm>Similarity (geometry)ComputerAutomatonSoftwareVorverarbeitungBackupSoftware testingTOMPhysical quantityRow (database)outputBerechnungEnde <Graphentheorie>File formatDecision tree learningSocial classProcess (computing)GRADEGeneral linear modelPartition of a setEquationLegal informaticsPAPMathematical modelInterface (computing)RegressionsfunktionJSONXMLLecture/Conference
Transcript: German(auto-generated)
00:11
Gut. Ja, vielen Dank. Vielen Dank, Daniel. Vielen Dank für die wundervollen Vorgängervorträge. Ich freue mich, dass wir das aufgreifen können direkt hier. Ich bin nun gewissermaßen der erste
00:27
der erste Vertreter des Studienpersonals. Mit Berner zusammen trage ich jetzt den technischen Teil vor, der auch Kapitel 4, glaube ich, im Gutachten ist, über die technischen Grundlagen von automatischer Entscheidungsfindung und wie weit die Technik der Juristerei entgegenkommen
00:43
kann, um eine Regulierung zu ermöglichen und welche Probleme es in dem Zusammenhang gibt. Genau, es ist Bernhard Waltl von ehemals TU München jetzt bei BMW. Ich sitze an der Carnegie Mellon in Pützberg und bin auch Teil der Fachgruppe Rechtsinformatik. Genau, kurze Gliederung. Wir machen eine
01:01
kurze Einführung des Maschinelles Lernen für diejenigen von Ihnen, die es noch nicht hundertprozentig damit familiär sind. Dann gehe ich ein bisschen auf Ungleichbehandlung durch Maschinelle Lernverfahren ein in puncto Datensensitivität und quantitative Gleichbehandlungsmetriken. Dann macht Bernhard Testing und Auditing. Am Ende machen wir dann
01:21
gemeinsam etwas Transparenz und dann kommt eine Schlussbetrachtung. Okay, ja ich gucke auf den Bildschirm und die Folie ist da vorne. Ich muss mich glaube ich gerade ein bisschen umdrehen. Genau, was ist Maschinelles Lernen? Die klassische Definition von Tom Mitchell ist die, das Maschinelles Lernen, algorithmische Verfahren beschreibt, in
01:42
denen ein bestimmtes Computersystem im Hinblick auf eine bestimmte Aufgabe, seine eigene Performance, also die eigene Genauigkeit oder die Kompetenz sagen wir so, mit einer Erfahrung verbessert. Die Erfahrungen sind typischerweise Trainingsdaten, womit wir uns im sogenannten
02:01
Supervised Learning befinden. Es gibt noch an Supervised Learning diverse Unterformen, die wir jetzt hier nicht brauchen. Im Wesentlichen geht es hier um Supervised Learning. Eine alternative Definition ist das Maschinelles Lernen. Das Ziel von Schlussfolgerungen auf der Basis von Mustern ist aus Daten untergegebenen Annahmen. Das sind die Annahmen, die unter anderem gerade strukturell eine ganz große Rolle
02:22
spielen. Technischerweise befinden wir uns bei Credit Scoring im Klassifikationsverfahren. Das heißt, wir sagen, eine kategorische Variable aus Datenvoraussprich ist der Antragsteller kreditwürdig oder nicht. Im Abgrenzung zu einer Regression, wo wir beispielsweise jetzt einen Score errechnen. Der Score kann, die beiden Verfahren sind
02:43
natürlich mathematisch relativ äquivalent, aber effektiv kann ich einen Score auch als Skala, als Kategorie-Empfehlung konzeptionieren gewissermaßen, womit ich bei der gleichen bei der gleichen Information bin. Die Annahme ist, dass strukturierte Daten vorliegen, featurized, wie wir es auf Englisch nennen, und dass die Daten
03:03
sogenanntes Signal für das Muster oder dass die Variable von Interesse haben. Technisch gesehen ist es so, dass das Ganze natürlich auf annotierten Daten beruht. Das heißt, die Schufa zum Beispiel hat eine große Datenbank von strukturierten Daten über Kreditanträge, Antragsteller und Auskünfte darüber,
03:25
ob diejenigen in Dissolvent waren oder nicht, ob es Kreditausfälle gab. Und auf der Weise dieser Daten, Paardaten trainiert man dann halt eben das Modell. Das erste Verfahren, mit dem wir uns hier beschäftigen, ist ein bisschen Mathematik, ist die sogenannte logistische Regression. Das ist ein klassisches
03:42
statistisches Verfahren. Ich bin da auch der Frau Jens sehr dankbar für die Vorarbeit hier. Es ist so, dass wir in den Gesprächen, die wir mit Firmen und Vertretern geführt haben, die Erfahrung, die Informationen bekommen haben, dass die logistische Regression ein klassisches statistisches Verfahren ist, dass in der Praxis noch das dominante Verfahren ist, auch in den USA. Es gibt Unternehmen, die
04:03
kompliziertere Verfahren verwenden, gerade in dem Moment, in dem unstrukturierte Daten verwendet werden, wie zum Beispiel neuronale Netze. Das ist aber auf weiter Strecke momentan noch nicht der Fall, was nicht heißen soll, dass außerhalb der Betrachtung liegt. Aber die grundlegende Problematik, wie reguliere ich so ein System, ändert sich
04:20
nicht notwendigerweise damit, wie meine Parameter darin errechnet werden. Also eine logistische Regression ist nichts anderes als eine schöne Oberstufen-Analyses- gleichung. Y ist mal X plus B. In der Oberstufe war es, das ist eine Funktion. Heutzutage ist es KI.
04:40
Okay, gut. Das bedeutet, wir haben eine gewisse Menge an Eingabewariablen. Das sind Informationen über den Kreditantragssteller, die mit Gewichtsvariablen kombiniert werden. Das Ganze wird aufsummiert und mithilfe einer sogenannten logistischen Funktion in ein Spektrum von zwischen 0 und 1 gepresst. Und dann
05:00
kommt halt eben eine schöne Zahl dabei raus, bei der ich sagen kann, je näher es an 1 ist, umso kreditwürdiger ist mein Antragsteller. Und das ist im Prinzip alles schon für eine logistische Regression. Wenn ich mir jetzt Beispieldaten anschaue, also wenn ich zum Beispiel jetzt eine Menge an Antragstellern habe, blau hier ist kreditwürdig, rot ist nicht kreditwürdig, die Daten sind fiktiv. Ich bitte
05:20
zu entschuldigen. Und ich habe zwei Features hier, ein zweites Jahreseinkommen und regelmäßige Ausgaben. Dann könnte ich zum Beispiel mit der logistischen Regression so ein Parameter optimieren. Aufgrund meiner anhand meiner Trainingsdaten kommen dann zu dieser Entscheidungsgrenze hier. Die trennt dann kreditwürdige Antragsteller von nicht
05:40
kreditwürdigen Antragstellern. Und das Optimierungsverfahren, mit dem ich zu dieser Entscheidungsgrenze komme, misst sich statistisch nach der Abweichung der einzelnen Datenpunkte vom vorausgesagten Wert. Und das ist das Verfahren, mit dem momentan zum Beispiel auch die Schufa arbeitet. Die richtige Leistung der Schufa liegt hier. Also wurde uns bestätigt, dass
06:01
die mit der logistischen Regression arbeiten. Die richtige Leistung, die die Schufa hier vollbringt, ist diese Daten zu produzieren, zu selektieren und das ganze System mit Trainingsdaten zu versehen und so weiter. Bis es halt eben das gewünschte Produkt liefert. Es gibt noch andere Modelle hier Entscheidungsgrenzen einzuziehen. Es
06:21
gibt zum Beispiel Support Vector Machines, wo ich im Gegensatz zur logistischen Regression, wo ich jeden Datenpunkt mit in die Optimierung einfließen lasse. Nämlich bei den Support Vector Machines zum Beispiel nur die Datenpunkte, die am äußersten Rand meiner Entscheidungsgrenze liegen und ich versuche diesen leeren Bereich der Entscheidungsgrenze zu maximieren. Das ist ein anderes
06:40
mathematisches Optimierungsverfahren, aber es funktioniert ähnlich. Ich kann sogenannte Entscheidungsbomben oder Decision Trees machen, in dem ich die Daten nehme und dann nach und nach in einzelne Bereiche unterteile. Und dann komme ich zum Beispiel zu diesem Entscheidungsbaum hier. Also wenn mein Jahreseinkommen mehr oder weniger als der Wert J1 ist und dann kann ich diese Teile
07:01
noch jeweils unterteilen und komme dann in eine geschachtelte Struktur meiner Daten. Oder ich nehme neuronale Netzwerke, in denen kann ich zum Beispiel in einem völlig realistischen Fall, dass ich zwei Gruppen habe und eine Gruppe einen Kreis und die andere Gruppe herausbildet. Also egal, wie ich das jetzt hier linear schneiden will, es kommt kein gutes Modell
07:21
dabei raus. Was ich stattdessen mache, ist, ich ziehe eine Zwischenrepräsentation ein, wo ich drei lineare Modelle definiere, die ich dann am Ende kombiniere in einer zweiten Schicht. Und durch eine Kombination dieser drei Entscheidungsgrenzen kriege ich so eine kleine Dreiecksgrenze hier, mit der ich dann meine Klasse intern identifizieren kann. Neuronale Netze werden
07:42
momentan noch nicht wirklich viel verwendet, um unserer Information nach, in der Praxis. Es ist allerdings so, dass wenn Sie in diese, wenn Sie eine logistische Regression anschauen, können Sie sagen, okay, ich sehe hier, ich kann eine eindeutige Beziehung zwischen meinen Entscheidungsgrenzen und meinen
08:01
Eingabewariablen feststellen. Bei den Entscheidungsbäumen kann ich es auch noch in etwa, weil ich eine explizite Repräsentation meiner Grenzdarstellung habe in den einzelnen Variablen. Bei neuronalen Netzen ziehe ich hier mindestens eine oder mehrere Zwischen-Schichten ein. Und was in diesen Zwischen-Schichten geland wird, ist zwar deterministisch am Schluss,
08:20
weil es ein klares mathematisches Modell ist, aber ich kann hier, es ist jetzt halt eine Linie, die hier von links oben nach Mitte unten verläuft und hier verläuft es anders. Und erst hier hinten macht das ganze Sinn. Aber alles das, was zwischendrin an Mustern gelandet wird, ist für Menschen zwar deterministisch berechenbar, aber nicht unbedingt intuitiv nachvollziehbar und auch nicht erklärbar.
08:41
Das ist das große Problem. Die Ungleichbehandlungen, die sich ergeben in dem Zusammenhang, sind eben das, wie bin ich zeitlich? Okay, alles klar. Genau. Was sich eben hier heraus ergibt, ist, dass in
09:01
diesem mathematischen Optimierungsverfahren auf den Daten eben nur die Trainingsdaten abgebildet werden. Das heißt, wenn ich zum Beispiel hier das Entscheidungsbaumverfahren habe, wird mein automatischer Entscheidungsbaum Erstellungsalgorithmus den Baum so erstellen, dass das Optimierungskriterium entweder minimiert oder
09:20
maximiert ist. Es wird keine Substanzen sich nicht danach richten, ob die Gruppen intern paritätisch verteilt sind oder welches Fairness Kriterium ich am Ende substanziell daran anlege, wenn ich das dem Programm nicht explizit mitgebe. Das heißt, das System lernt gewissermaßen
09:40
auch unzulässige statistische Zusammenhänge. Wenn zum Beispiel 60 Prozent meiner Kreditantragsteller männlich sind und 40 Prozent weiblich oder andersherum, wenn 60 Prozent meiner männlichen Kreditantragsteller Kredite bekommen und nur 40 Prozent meiner weiblichen Kreditantragsteller wird,
10:01
habe ich eine Korrelation zwischen der Gruppen Zugehörigkeitsvariable und der Vorhersagevariable und damit eine statistische Beziehung, die das System ausnutzen wird. Außer ich nehme eben die, Moment, das habe ich mich verklickt, außer ich sage dem System eben und das ist
10:21
genau der Datenschutz Ansatz, dass es diese Daten nicht verwenden soll. Ich sage, Geschlecht darf nicht verwendet werden, zum Beispiel Wohnort darf nicht verwendet werden, personenbezogene Daten dürfen nicht verwendet werden. Aber damit beseite ich das Problem nicht. Wir nennen das Fairness through Blindness. Das heißt, ich habe ein System, das auf Daten trainiert
10:41
wird und ich nehme gezielt Daten raus, von denen ich sage, das sind Daten, die eigentlich nicht verwendet werden dürfen. Das sind Daten, die eigentlich nicht verwendet werden dürfen. Aber das heißt nicht, dass das Modell, das am Ende raus kommt, nicht trotzdem diese Gruppen diskriminiert oder ungleich behandelt, weil Daten, die ich nicht rausgenommen habe, diese rausgenommene Daten fingieren
11:00
können. Wenn ich Geschlecht rausnehme, habe ich vielleicht andere Daten darin, die implizite Geschlechtsattribut beinhalten, sogenannte Proxyvariablen. Das heißt, wenn ich Daten rausnehme, habe ich zwei Probleme. Erstens, meine Modellgenauigkeit sinkt, weil ich habe weniger Informationen im Modell und zweitens, es muss nicht
11:21
heißen, dass am Ende keine Diskriminierung statt oder keine Ungleichbehandlung stattfindet. Genau. Die große Frage, die sich jetzt stellt, ist, und damit haben wir auch im Gutachten ein Problem gehabt, wenn wir uns darüber fragen, wie wir das Ganze jetzt kontrollieren wollen, also kurz, im Ergebnis bedeutet Fairness through Blindness
11:40
funktioniert nicht, ist gleichbedeutend, Verzeihung, mit Datenschutz alleine reicht nicht, um Fairness durch ADM-Verfahren sicherzustellen. Das heißt, ich muss ein Verfahren haben, das im Ergebnis prüft. Das heißt, ich muss ein System nehmen können, muss Testdaten reinschieben können und muss mir das Verhalten auf den Testdaten anschauen können und sagen können, ist
12:01
dieses Verhalten jetzt in Ordnung? Und daraus lassen sich verschiedene Probleme ableiten. Erstens, wie muss sich ein System auf Testdaten verhalten, um fair zu sein? Damit bin ich bei quantitativen Fairness begriffen. Es gibt in einem akademischen Forschungsbereich namens Fair Machine Learning, haben eigene Konferenzen zum Beispiel, in denen sehr
12:21
viel in dem Bereich geforscht wird, wie sieht Fairness quantitativ aus? Und es gibt viele verschiedene Definitionen, von denen sich manche auch statistisch gegenseitig ausschließen. Das heißt, wenn ich juristisch sage, ich will, dass eine bestimmte Gruppe gleich behandelt werden, muss ich sagen und diese Gleichbehandlung bedeutet jetzt quantitativ X und ich muss binnen Epsilon
12:42
von diesem X sein, um es zulässig, um das System zulassen zu können. Und weiter lässt sich daraufhin dann ergeben, dass ich diese Information, wenn ich sie dann mal habe, was Fairness bedeutet, nun auch benutzen kann, um schon während dem Training
13:02
sicherzustellen, dass das System faire Zusammenhänge lernt. Und das ist zum Beispiel auch was, wo an dem aktiv geforscht ist. Wir kamen allerdings zu dem Ergebnis in der Studie, dass hier noch sehr viel Forschungsbedarf besteht. Und damit gebe ich dann bei noch weiter.
13:21
Matthias, vielen, vielen Dank für diese einführenden technischen Betrachtungen. Du sprichst nachher noch mal am Ende der Slides, also den Applaus kann man auch bis nach hinten vertragen. Wir haben vier Leitfragen identifiziert, die uns geholfen haben, sozusagen diese technische Perspektive, die man bei ADM Systemen sozusagen
13:42
anlegen kann, noch ein wenig weiter zu strukturieren. Wir haben uns sozusagen gefragt, warum hat ein ADM System diese und keine andere Entscheidung getroffen? Wie könnte man so was technisch nachweisen? Für welche Menge von Entscheidungen funktioniert ein ADM System, also ein algorithmisches Decision Making System eben
14:00
auf Basis welcher Datenattribute wurde eine Entscheidung getroffen und dann vierter Punkt noch, welche mathematischen Operationen wurden verwendet und welches Gewicht hatten solche Attribute? So oder so ähnlich könnten ja Fragestellungen lauten, die uns als Verbraucher interessieren, gerade im Bereich Credit Scoring, aber auch in ADM Systemen, wo wir jetzt vielleicht noch gar keine Anwendung sehen.
14:21
Meine Rolle im Rahmen des Gutachtens war sozusagen noch eher eine Engineering Perspektive einzunehmen, also zu untersuchen, wie entstehen eigentlich solche Systeme und wie können wir sozusagen ein Transparenzbegriff hier einigermaßen gut verorten. Was wir sehen, auch mit Blick auf die wissenschaftliche Literatur ist, dass künstlich intelligente Systeme oder
14:40
ADM Systeme sehr gut untersucht sind. Da passiert auch sehr viel. Wir erwarten auch noch sehr viel Innovation an vielen unterschiedlichen Bereichen, nicht nur in neuronalen Netzen. Aber es gibt praktisch Felder, die sind sehr gut untersucht, die werden auch sehr aktiv verfolgt, wie die Präzision von ADM Systemen, auch die Frage nach Domainem Portabilität, wie können wir es schaffen, Modelle zu transferieren
15:01
zwischen Domänen eben, auch Geschwindigkeit und Datensparsamkeit. Aber die Fragestellungen, die uns hier umtreiben, also die Erklärbarkeit und Transparenz, also wie können wir Systeme so gestalten, schon praktisch, dass sie bei Design mit Ergebnis, mit in ihrem Ergebnis eine Erklärung liefern, das ist relativ neu. Das heißt nicht, dass es ganz neu ist, aber es ist
15:21
relativ neu und es bekam erst in den letzten Monaten und Jahren zunehmend an Aufmerksamkeit. In der Studie diskutieren wir oder plädieren wir für drei Ebenen der Transparenz, die wir hier unterscheiden können, wenn wir von ADM System sprechen. Das ist einerseits die Ebene des Prozesses, also bis zu welchem
15:41
Grad kann der Prozess des Algorithm Decision Makings transparent gemacht werden. Dann die Frage nach dem Modell. Ich glaube, Matthias, das ist jetzt sehr schön anschaulich auch dargestellt, was es bedeutet, so ein trainiertes Machine Learning Modell zu haben und wie schwierig es auch ist, gerade für den Menschen ein solches zu interpretieren. Aber vielleicht reicht
16:00
uns oder vielleicht brauchen wir in vielen Fällen gar nicht ein transparentes Modell, gerade wenn wir uns selbst eingestellt müssen. Neuronal Netze sind einfach nicht für Menschen gedacht. Vielleicht reicht es uns ja einfach, wenn wir sagen, wir haben transparente Klassifikationen. Ich muss leider ein wenig schneller drüber gehen. Sie finden das alles im Detail beschrieben in der Studie. Das wäre so ein integratives Modell.
16:21
Wie könnte man sich sowas vorstellen? Wir sehen hier im oberen Bereich die Prozess-Ebene. Wir wissen seitens des Systems oder Software Engineerings, dass so ein Modell, ein System sozusagen immer in einem Prozess entsteht. Es beginnt mit Datenakquise, Vorverarbeitung von Daten, zum Teil auch mit Transformationsschritten. Wie können wir
16:40
Daten aufbereiten, sodass wir schließlich endlich in dem vierten Schritt hier in der oberen Box ein Modell trainieren können, sozusagen diese mathematische Funktion optimieren, das Berechnen der Parameter, wie es im Bereich der logistischen Regression anschließend dargestellt wurde, und anschließend natürlich Post-Processing, also was kommt dann danach mit gegebenenfalls auch Feedback Loops.
17:01
Das heißt, wir sehen hier schon einen ganzen Prozess, der, wenn wir ein vollständig transparentes ADM-System haben wollen, müssen wir sozusagen diese gesamten Prozessschritte aufmachen und überall dort auch reinschauen bzw. überall dort auch für Transparenz sorgen. Auf der Modellebene ist es auf der untergeordneten Ebene, die man ja sozusagen hier in dem
17:21
vierten Schritt entwickelt oder trainiert, unterscheiden wir relativ stark auch an unterschiedlichen Modellen. Wir haben ja vorhin schon gesehen, es gibt Entscheidungsbräume, die können wir als Menschen prinzipiell sogar noch nachvollziehen, obwohl diese nicht nur wenigerweise von Menschen erstellt wurden. Es gibt durchaus Verfahren, dass ein System und die meisten
17:40
Entscheidungsbräume werden ja gerade von Maschinen auch erstellt, auf Basis von statistischen Methoden, Stichwort Information Gain zum Beispiel oder auch Basion Networks, also dort, wo probabilistischer Betrachtungen zwischen Attributen, zwischen Variablen eine Rolle spielen oder schließlich unendlich ganz populär zur Zeit natürlich neuronale Netze. Und anhand jeden oder an
18:00
dieser unterschiedlichen Modelle können wir sozusagen als Mensch oder müssen wir uns eingestehen, dass wir unterschiedliche Möglichkeiten haben, diese zu interpretieren und auch für uns als Menschen verstehbar zu machen. Und die Ebene der Klassifikation kann diese andere in beiden Ebenen oder die übergeordneten Ebenen sogar ein Stück weit außen vor lassen. Wenn Sie sagen, mich interessiert doch eigentlich gar nicht, was die Schufa verwendet.
18:20
Das wird sich vielleicht auch wieder ändern, es geht mich vielleicht auch gar nichts an. Ich möchte ja nur wissen für meinen konkreten Score, wie, welche Attribute wurden verwendet und welchen Einfluss hatten die jeweiligen Attribute. Gehe ich dann ein wenig schneller darüber, einfach nur um darauf nochmal hinzuweisen, dass die Prozess-Ebene nie außer Acht gelassen werden darf. Denn wenn wir sagen,
18:41
wir haben zum Beispiel hier die Data Acquisition, also überall dort, wo Daten erhoben werden, so müssen wir uns eingestehen, dass Fehler bei Klassifizierung oder bei trainierten Modellen oder vermeintliche Fehler, Diskriminierungen beispielsweise auch schon dadurch entstehen können, dass die Daten, die verwendet wurden, zum Training einen Bias beinhalten. Das heißt, es ist durchaus anzunehmen
19:00
und wir können es auch beobachten, dass wenn Daten erhoben werden, die statistisch auch repräsentativ für unsere Gesellschaft sind, wenn dort aber auch Biases drinstecken, also Benachteiligungen, die in der Gesellschaft evidenz sind, wird das System diese auch wiedergeben. Das heißt, da müssen wir auch so fair sein und sagen, das ist nicht alles nur ein technisches Versagen an der Stelle, sondern es ist auch ein Stück weit
19:20
ein Blick in den Spiegel unserer Gesellschaft, das uns die Technologie hier vorhält. Viel spannender finde ich allerdings die Frage nach der Transparenz des Modells. Matthias, das ist ja schon wunderbar erläutert. Ich möchte ja auch gar nicht mehr viel mehr dazu sagen, einfach nur, dass es einfach unterschiedliche klassifizierende Methoden gibt,
19:41
die sich unterschiedlich zu Interpretationen durch uns Menschen auch eignen. Bei neuronalen Netzen stehen wir vor einer relativ großen Herausforderung, einfach weil die Datenrepräsentation, also die interne Repräsentation des Modells so hoch, so kompakt ist und auch von ihrer Mathematik, obwohl sie natürlich streng deterministisch ist. Da passiert nichts Magisches,
20:01
da passiert jetzt nichts, von dem man Angst haben müsste. Aber es ist nichts, sozusagen diese hohen Matrizen, die da berechnet werden, die da automatisiert angelegt werden, ist nichts mehr was von Menschen auch mehr, auch nur was sozusagen in zumutbarer Zeit nach vollzogen werden kann.
20:22
Genau das wäre nur ein ein Beispiel zur Illustration. Von der logistischen Regression aus dem Paper, das hier angenannt ist, sozusagen ein trainiertes Modell für die logistische Regression. Wie könnte man sich das vorstellen? Wir sehen hier die jeweiligen Variablen, also Attribute, die verwendet werden von dem Modell und die sozusagen
20:42
während der während des Trainings oder während der Optimierung dieser Funktion berechnet wurden. Also welchen Einfluss dieses dieser Variable oder dieses Feature dann tatsächlich auf die Regressions gerade auf die Regressionsfunktion eben hat.
21:04
Genau. Ja, Verzeihung. Wie Bernhard richtig sagte, das war eben Tabelle, in dem ein Paper erklärt, wie eine logistische Regression unterstrich untersucht wird.
21:21
Und es kommt am Ende darauf raus, dass hier ein statistischer Signifikanz-Test gemacht wird. Das ist ein klassisches statistisches Modell und es ist auch unter dem Strich, dass was heutzutage auch noch verwendet wird. Das ist ein weiteres Beispiel. Ich gebe auch gleich wieder an Bernhard zurück, in dem Ranga Yogespa's Vortrag
21:41
heute Morgen hat das Kompass-System zur Risikoeinstufung von Bewährungsentscheidungen erwähnt. Der Datensatz ist öffentlich, was zur Folge hat, dass ein relativ großes, eine relativ große Initiative akademischer Forschung losgetreten wurde, indem Leute mit diesem Risikobewertungs-Datensatz versucht haben, fairere Modelle zu trainieren
22:01
und bessere Fairness-Metriken zu entwickeln und transparente, erklärbare Entscheidungen zu produzieren. Und eines, der meiner Ansicht nach sehr guten Werke, falls Sie Interesse haben, ist von Himalaya Karachi und Stanford. Entscheidungsbäume im Bereich Risikoeinstufung kann ich nur empfehlen, falls Sie Interesse an Transparent Machine Learning haben.
22:22
Wunderbar. Ich möchte nicht unerwähnt lassen, dass wir uns natürlich die Frage gestellt haben, was können wir jetzt konkret tun, angesichts dieses doch sehr theoretischen Überbaus, dass wir uns der Arbeit haben. Was könnten wir jetzt konkret an Maßnahmen fordern? Was könnten wir uns hier vorstellen? Wie könnte man hier Transparent schaffen? Wir entscheiden hier
22:40
zwischen Audit und Testing, wobei sich diese beiden Methoden auch ein Stück weit ergänzen. Ich kann leider wieder nicht auf alles im Detail eingehen. Ich kann nur schon mal vorwegnehmen und auditieren. Das ist durchaus eine sinnvolle Maßnahme, um die Qualität oder überhaupt um die Anti-EM System transparent zu machen. Ich möchte das am Beispiel vom Code Audit mal einfach nur kurz anreißen. Das Code Audit sieht im Wesentlichen,
23:01
wie man sich es naiv vorstellen kann, vor, dass ein Unternehmen verpflichtet wird, auf welcher Rechtsgrundlage auch immer, vollständig sozusagen alles herauszugeben, was notwendig war, um dieses ADM-System zu entwickeln. Also alle Pflichten und Lastenhefte, die verwendeten Trainingstaten, die verwendeten Testdaten, zumal auch die trainierten Modelle, sodass ein Mensch und auch unter Hilfe
23:20
von Technologie nachvollziehen kann, was passiert innerhalb dieses Algorithmus. Das Code Audit, da bin ich voll bei auch Vertretern aus der Wirtschaft, die uns in interviews gesagt haben, das erfordert natürlich auch die Offenlegung von zum Teil vertraulicher Information. Das ist auch ein Punkt, wo man sagt, inwieweit betrifft es vielleicht den Wirtschaftsstandort Deutschland,
23:41
wenn Unternehmen hier gezwungen werden, vielleicht sehr aufwendig erstellte Modelle hier offen zu legen. Ein Diskurs, der hier stattfinden muss. Zusätzlich zu dem Code Audit gibt es auch noch das Scraping Audit. Das wäre sozusagen eine Methode, dass man nicht nur dengeweise offenlegen muss, wie das Modell funktioniert
24:00
oder wie man dazu kam, wie man es entwickelt hat, wie man es trainiert hat, sondern man muss vielleicht eine spezielle Schnittstelle für Behörden oder für interessierte Bürger zur Verfügung stellen, in denen sie automatisiert Anfragen schicken können. Stellen Sie sich die Schufa gibt in ein Formular, da können Sie können Sie eingeben, was Sie wollen. Und es gibt zu dem, was Sie eingegeben haben, auch immer der Score berechnet. So könnten Sie
24:21
ein Gefühl dafür entwickeln, auf Basis welcher Attribute, auf Basis welcher Eigenschaft meiner Person oder fiktiven Personen funktioniert dieses ADM System. Das erfordert keine explizite Offenlegung von Software Code. Aber wenn man das geschickt macht und es intelligent macht, kommt man relativ nahe
24:41
an ein vollständiges, transparentes ADM System ran. Man kann es sozusagen gewissermaßen ausleuchten, wenn man sich so vorstellen will. Das weist natürlich eine hohe Ähnlichkeit zum Testing auf. Ich mache es etwas schneller. Das Testing ist insofern recht interessant. Die Grundidee hatte ich bei Scraping Audit gerade skizziert, weil es sich automatisieren lässt.
25:00
Das heißt, Sie können sich automatisch Tests überlegen, die Sie gegen so ein System laufen lassen. Sie haben nur zwei Probleme. Sie haben in der Regel nicht die Testdatenlänge. Sie wissen ja zum Teil gar nicht, was wollen Sie denn eigentlich testen? Und Sie haben das, was wir in der Formatik nennen, ein Oracle-Problem. Stellen Sie sich eine fiktive Person vor, die Sie erstellen. Das System bewertet diese Person
25:22
und schickt Ihnen den Score 80. Wie wollen Sie jetzt sicherstellen oder wie wollen Sie jetzt gegenverifizieren, dass es wirklich Score 80 ist oder nicht? Das ist ein Problem. Die Lösung existiert sozusagen. Und ich mache es am Beispiel mit dem Morphentestens kurz vor.
25:40
Sagen wir, wir haben ein ADM-System. Das bekommt vier Attribute, nämlich das Alter, das Geschlecht, Migrationshintergrund, ja, nein und das Jahreseinkommen als Menschen. Nehmen wir 35, männlich, kein Migrationshintergrund und verdienen 50.000 im Jahr. Das wäre der Input. Die Funktion berechnet einen Credit Score 75, wie auch immer der dann auch ausgelegt wird.
26:02
Was Sie jetzt machen ist im Metamorphentesting, ist Sie generieren für diesen Vektor, für diese Eingangsmenge eine fiktive Testfälle. Sie permutieren automatisch sozusagen diese Eingangsattribute. Sie ändern 35 auf 50 Jahre,
26:20
lassen alles andere gleich. Das System sagt Ihnen Score 80. Sie erkennen praktisch plus fünf im Credit Score und so machen Sie das automatisch durch. Das können Sie sehr, sehr effizient machen. Sie können Sie eine große Menge von diesen Veränderungen praktisch automatisch brechen lassen. Sie müssen nur vorsichtig sein mit der Interpretation. Das heißt jetzt noch nicht,
26:40
dass Sie dadurch ein vollständiges Modell auch nachbilden können, sondern Sie können sich so eine Tabelle erstellen und damit nachgelagerte Verfahren vielleicht statistische Tests durchführen und zu sagen, welche Ausdrückung hat denn die Fragestellung, ob jemand, ob eine Person männlich oder weiblich ist in dem Kontext oder eben nicht. Wie wirkt sich das auf den Credit Score
27:00
unmittelbar aus? Die Frage ist, ob Sie dadurch Diskriminierung feststellen können. Hängt ganz stark davon ab, wie stark Sie den Begriff der Diskriminierung operationalisieren können. Das heißt, ab welcher Schwelle würden Sie sagen, liegt die Diskriminierung eben vor oder nicht? Das Problem ist natürlich für dieses kleine Minimalbeispiel,
27:21
wenn wir eine vollständige Testabdeckung erreichen wollen, ich habe das mal durchgerechnet, haben wir schon über 720, 20.000 verschiedene Testfälle. Wenn wir uns Systeme anschauen, wie sie aktuell verwendet werden, gehen die Menge oder die Attribute locker in die Hunderte, wenn nicht in die Tausende.
27:42
Und da können Sie sich vorstellen, die Anzahl der Testfälle explodiert Ihnen hier. Das heißt, es kann Ihnen durchaus passieren, dass Sie hier eine einzelne Testfälle bekommen, die Sie gar nicht mehr sinnvollerweise auch abprüfen, nicht mehr testen können. Dann gebe ich noch mal zurück, für eine Schlussbemerkung von dir.
28:03
Danke Bernhard. Als kleines Beispiel für die Audit-Technik hier, Fair Landing Audits aus den USA. Wie Bernhard richtig sagt, geht es hier um die Frage, wie kann ich ein statistisches Modell
28:20
auditen im laufenden Betrieb? Was passiert in den USA, ist unter den Fair Landing Laws, sind Banken dazu verpflichtet, bestimmte Kreditantrags und Entscheidungsdaten vorzuhalten für Audits durch das Office of the Comptroller. Und was passiert, ist, dass Einzelklagen wegen Ungleichbehandlung in den USA an der Stelle sehr stark behindert werden.
28:45
Das ist zu viel gesagt, aber jetzt steigt mein Deutsch kurz aus. Aber man versucht, Einzelklagen zu minimieren und hat stattdessen Beschwerdeverfahren, die wiederum eine Audit-Möglichkeit zur Folge haben. Und was passiert ist, dass das Comptroller Office eine Menge Statistiker zur Bank schickt.
29:03
Die schauen sich diese Daten an, die Kreditvergabedaten der Bank und erstellen dann, ob gleich in der Bank kein Credit Scoring notwendigerweise zum Einsatz kommt. Es wird dann ein logistisches Regressionsmodell der Vergabepraxis der Bank erstellt, womit wir dann einen Algorithmus haben. Und dann wird der Algorithmus überprüft,
29:22
ob er eine Ungleichbehandlung hat, an Stellen, in denen er keine Ungleichbehandlung haben müsste. Das ist das transparenteste Beispiel von einem Algorithmusordet, das wir haben finden können, wo es auch genug bisher Literatur gibt. Und was passiert ist, dass diese Gleichbehandlungstest
29:40
nicht zur Feststellung einer Diskriminierung und damit unmittelbar zu Rechtsfolgen führt, sondern es ist eine Form der Beweisführung oder Informationsgewinnung über die Vergabepraxis der Bank. Also wenn zum Beispiel das System in der Tabelle, die auch von ein paar Folien da war, wenn zum Beispiel gezeigt wird,
30:00
dass ein statistisch signifikanter Unterschied zwischen afroamerikanischen Antragstellern und weißen Antragstellern besteht, ist das nicht ein Rechtsverstoß als solches. Aber es führt dazu, dass man sich die Datenpunkte, die zu dieser signifikanten Ungleichbehandlung führen, anschaut und schaut, was ist da schief gelaufen oder sind die Ungleichbehandlungen an der Stelle zu rechtfertigen durch irgendwelche Gründe. Und was hier unter anderem passiert,
30:21
und damit möchte ich gerne an den Anfang der Präsentation anknüpfen, ist, dass man an die Grenzen der Repräsentierbarkeit der Daten stößt. Zum Beispiel ist es so, dass beim Fair Landing Audit von strukturierten Daten ausgegangen wird. Das heißt, ich gehe davon aus, in meiner Tabelle ist alles drin, was ich an Informationen brauche. Allerdings ist es so, dass das nicht mehr der Fall ist. Zum Beispiel ist in vielen Banken
30:42
die Praxis gang und gäbe, dass Informationen, die in die Tabellen kommen, in den Antragsformulant danach überprüft werden. Und wenn bestimmte Informationen wie das Jahreseinkommen eines Antragstellers nicht überprüfbar sind, wird der Antrag abgelehnt. Aber die Überprüfbarkeit einer einzelnen Tabellenzelle hat keinen Anker
31:00
in der Tabelle selbst. Das heißt, ich habe eine Zahl da drin und die Frage, ob die Überprüfbarkeit ist, ob die Zahl überprüfbar ist, habe ich nicht. Das Stück Information habe ich nicht. Das heißt, ich kann das Modell, das ich auf dieser Tabelle selbst trainiere, hat nicht alle Informationen zur Verfügung, die in die menschliche Entscheidung fließen. Auf die Art und Weise ergibt sich ein Paradebeispiel
31:20
davon, dass selbst wenn ich ein quantitatives Fairness-Kriterium habe und einen ordentlichen Audit mit Testdaten, die in der Bank erstellt wurden, habe ich immer noch das Problem, dass nicht alle Informationen unmittelbar zur Verfügung stehen. Das ist für uns eines der Beispiele, inwieweit man praktisch sowas umsetzen kann. Wir haben mit der BaFin telefoniert
31:41
und haben dort erfahren, dass dort weder Ressourcen noch genug Kompetenz da sind, um sowas im deutschen Kontext durchzuführen. Was wir schade finden und zeitgleich allerdings haben wir sehr starkes Interesse erfahren, dass da Kompetenzen gewollt sind und mehr Ressourcen gewollt sind und mehr Sachverstand gewollt sind.
32:01
In dem Sinne hoffen wir eigentlich, dass sich Deutschland auf einem guten Weg befindet. In Richtung Schlussbetrachtung jetzt, wir haben sehr viel erfahren im Laufe der Studie im technischen Teil, sind aber zu dem Ergebnis gekommen, dass ganz viel Forschungsbedarf existiert an ganz vielen Stellen. In den Grundlagen brauchen wir sehr viel mehr Forschung im Bereich
32:21
der praktischen Nutzbarkeit von quantitativen Fairness-Kriterien. Was ist fair? Ist es die gleiche Fehlerrate? Ist es die gleiche Wahrscheinlichkeit, dass eine kreditwürdige Antragstelle abgelehnt wird? Oder, dass ein kreditunwürdiger Antragsteller zu unrechtend Kredit bekommt? Was ist mir wichtiger? Was muss gleich sein zwischen den Gruppen? Wir brauchen eine Forschung zu.
32:42
Wir brauchen auch sehr viel mehr Forschung oder weitere Forschung im Bereich der Transparentmachung von Machine Learning Modellen und wie diese transparente Transparenz-Kriterien gewissermaßen in juristischen Verfahren und bürokratischen Prozessen
33:00
in Unternehmen nutzbar gemacht werden können. Also wie kann ich vor Gericht in der Diskriminierungsklage Informationen aus einem statistischen Modell nehmen und damit eine Beweisführungsstrategie zu führen? Gibt es noch zu wenig Arbeit dazu im europäischen Kontext. USA sind da schon ein Stückchen weiter. Weiter brauchen wir
33:20
erklärbare Modelle im Bereich Compliance und Forschung im Bereich von Tests und Audit-Möglichkeiten von Systemen, die sich im laufenden Betrieb befinden. Ganz wichtige Frage hier. Wer bildet die Testdaten für die Unternehmen? Wer wartet die Testdaten?
33:41
Und wer ist dafür zuständig sicherzustellen, dass die Testdaten zumindest so weit geheim bleiben, dass die Unternehmen sie nicht einfach Hardcoden können in ihre Systeme und damit dann die Audits passieren, aber trotzdem dann im laufenden Betrieb ungerechte Entscheidungen treffen. Werner? Werner, willst du was zur Versionierung und Modellen sagen?
34:06
Das andere Problem, was sich hier ergibt mit Modellen und Versionierung ist, dass im laufenden Betrieb Systeme regelmäßig neu trainiert werden. Das heißt, wenn neue Daten kommen, werden diese statistischen Modelle alle Woche zum Beispiel neu kompiliert.
34:22
Und je nachdem, wie groß der Parametersatz ist, ist das ein relativ großes Datenaufkommen. Die Frage ist also, wie weit muss ein System, muss ein Unternehmen seine eigenen ADM-Systeme vorhalten und als Backup sichern, um eine potenzielle Klage letzten Endes effektiv begegnen zu können, was Beweisführung angeht und so weiter.
34:42
Schlussbetrachtung. Im Prinzip ist das der Forschungsbedarf zusammengefasst mit den Grundlagen, die wir in der Einführung gesprochen haben. Ganz kurz, Machine Learning ist als solches nicht schlecht, sondern bildet nur Unausgewogenheiten in Daten ab,
35:00
die sowieso schon da sind. Das heißt, wir müssen mehr über unsere Daten wissen, bevor wir von unseren ML-Modellen erwarten können, dass sie fairer sind, als das, was reingeht. In Richtung des Entwicklungsprozesses müssen wir ML-Modelle
35:20
sowohl im Prozess der Entwicklung betrachten, auch zum Beispiel in Richtung Datenschutz, welche Daten gehen rein, welche dürfen rein und so weiter. Aber auch muss eine Ergebnisbetrachtung da sein im Sinne von, wie verhalten sich Modelle am Schluss. Weil speziell, wie Frau Jentsch auch schon angesprochen hat, je mehr verschiedene, auch unstrukturierte Daten in den Prozess einfließen,
35:41
einzelne Unternehmen werden auch Daten, die nur sie zur Verfügung haben, in die Modelle füttern. Das heißt, ich kann von der BaFin nicht verlangen, dass sie alle möglichen Daten, die jedes Unternehmen in Deutschland in ihre Modelle steckt, beaufsichtigen können. Stattdessen ist eine Ergebnisbetrachtung und Ergebnisbewertung sehr viel effektiver.
36:01
Die Frage allerdings, wie die Auditverfahren effektiv umgesetzt werden können, ist noch weitestgehend unbeantwortet und sollte weiter beforscht werden. Ähnliches gilt für die Frage, inwieweit wir effektiv die Modelle testen können im Hinblick auf explainable machine learning und quantitative fairness matrix und damit sind wir fertig. Vielen Dank.