We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Beeinflussung durch Künstliche Intelligenz

00:00

Formal Metadata

Title
Beeinflussung durch Künstliche Intelligenz
Subtitle
Über die Banalität der Beeinflussung und das Leben mit Algorithmen
Title of Series
Number of Parts
167
Author
License
CC Attribution 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Eine wissenschaftliche Perspektive auf die achtlose Anwendung der Algorithmen des maschinellen Lernens und der künstlichen Intelligenz, z.B. in personalisierten Nachrichtenempfehlungssystemen oder Risikosoftware im US-Justizsystem.
Keywords
Artificial intelligenceDijkstra's algorithmComponent-based software engineeringAndroid (robot)FlagEASY <Programm>EncryptionOpen sourceMachine learningArtificial intelligenceAlgorithmDigital mediaHuman–computer interactionComputer animationLecture/Conference
Information managementComputer programmingParameter (computer programming)Digital mediaMachine learningAtomic nucleusSystems <München>Information managementGauß-FehlerintegralParameter (computer programming)Computer programmingComputer scienceInformationstheorieStatement (computer science)AlgorithmWordImperative programmingPerspective (visual)Function (mathematics)TrailHuman–computer interactionPredictionComputer animation
AlgorithmZahlSymmetry (physics)Information technology consultingInterface (chemistry)TexturWordLecture/ConferenceComputer animation
Row (database)ZahlMachine learningInterface (chemistry)Decision theoryLiniePoint (geometry)CLOU <Programm>NumberLecture/ConferenceComputer animation
SpeciesPAPFacebookInformationComputer animation
RegressionsmodellGoogleScientific modellingApache WicketLecture/ConferenceComputer animation
FacebookSet (mathematics)GoogleAlgorithmInternetdienstAxiom of choiceLecture/Conference
InformationAirline <Programm>
PredictionAlgorithmArt 2StatisticsDistortionLecture/ConferenceMeeting/Interview
SubsetRow (database)Sample (statistics)Machine learningAbbildung <Physik>InformationProgrammiererinComputer animation
MatroidGoogleSystems <München>AlgorithmMathematical modelMachine learningDistortionGRADEComputer animation
Systems <München>GenderDistortionGoogleMachine learning
DistortionFacebookBerechnungSystems <München>Content (media)Eigenvalues and eigenvectorsPAPFactorizationNumberLecture/ConferenceComputer animation
AlgorithmFacebook
AlgorithmComputer animation
AlgorithmHuman–computer interactionPerspective (visual)AlgorithmComputing platformRoundingYouTubeLecture/ConferenceComputer animationMeeting/Interview
AlgorithmForm (programming)PredictionDistortionScientific modellingWind waveMachine learningPresentation of a groupThomas BayesComputer animation
Wind waveInternetSeries (mathematics)Spring (hydrology)Lecture/Conference
Spring (hydrology)Series (mathematics)AlgorithmAdobe PhotoshopLocal ringPixelStatistikerLecture/ConferenceComputer animation
DistortionSample (statistics)AlgorithmPredictionMachine learningMechanism designHypercubeScientific modellingYouTubeNo free lunch in search and optimizationEckePropositional formulaConstraint (mathematics)Software testingComputing platformTheoremLecture/ConferenceComputer animation
GoogleCompilerCubeFrequencyGoogleDistortionSmart cardDecision theoryAlgorithmPredictionRow (database)Expert systemFacebookContext awarenessLecture/ConferenceComputer animation
MicrosoftSystems <München>Machine learningAlgorithmLength of stayRoboticsDistortionLecture/Conference
Zusammenhang <Mathematik>SimulationSystems <München>AlgorithmMachine learningCryptanalysisCorrelation and dependenceRoundingSound effectExtrapolationRoute of administrationVariable (mathematics)Propositional formulaInterpolationVolumePhysical quantityVersion <Informatik>MathematicsComputer animation
Decision theoryRoundingAlgorithmInternetPhysical quantityLecture/Conference
Machine learningMachine learningSocial classPerspective (visual)Category of beingComputer scienceAlgorithmIP addressCost curveGoogleDistortionDisk read-and-write headInternetWordScientific modellingProfessional network serviceMetric systemDirection (geometry)KommunikationLink (knot theory)File formatVisualization (computer graphics)PredictionBlack boxBALL <Programm>Error messageForm (programming)
TwitterVisualization (computer graphics)Row (database)DistortionAlgorithmProxy serverBackupFunction (mathematics)PredictionCorrelation and dependenceGauß-FehlerintegralTerm (mathematics)Machine learningComputer animation
PredictionSystems <München>Computer animation
InferenceSimulationWordCrash (computing)Lecture/Conference
Finite element methodHypermediaMachine learningSample (statistics)Parameter (computer programming)Artificial neural networkSystems <München>SupremumArtificial intelligenceParalleler AlgorithmusRow (database)BitEigenvalues and eigenvectorsStatisticsPILOT <Programmiersprache>Similarity (geometry)Plane (geometry)Professional network serviceTestdatenValidationGrand Unified TheoryComputer animationLecture/Conference
Transcript: German(auto-generated)
Ansonsten, der nächste Vortrag ist Beeinflussung durch Künstliche Intelligenz.
Es ist ein Einführungsvortrag, also einer, der explizit dazu gedacht ist, dass ihr das ohne Vorgängnisse versteht. Und es geht ums maschinelle Lernen. Unsere Sprecher sind Ikaren, sie forscht in Amsterdam an maschinellem Lernen,
kommt ursprünglich aus Leipzig. Und der Henrik Heuer, der in Bremen am Mensch-Computer-Interaktion forscht. Großes Willkommen für die beiden.
Ja, vielen Dank. Moin erst mal. Willkommen zu unserem Vortrag Beeinflussung durch Künstliche Intelligenz über die Banalität der Beeinflussung und das Leben mit Algorithmen. Wir würden gerne mit einem Zitat von Kate Crawford beginnen. Kate Crawford ist die Gründerin des AI Now Institute,
das die sozialen Auswirkungen von Künstlicher Intelligenz untersucht. Sie ist außerdem Principal Researcher bei Microsoft Research und Professorin an der New York University. Und die hat beim AI Now Symposium in diesem Jahr gesagt, die Menschen befürchten, dass Computer zu intelligent werden und die Welt erobern. Aber Computer sind zu dumm und haben die Welt bereits erobert.
Und wir teilen diese Ansicht. Es gibt keine digitale Welt. Die Welt ist digital, das heißt durch digitale Medien konstruiert. Und uns war es ein Anliegen, einige englischsprachige Diskussionen jetzt noch mal auf Deutsch zusammenzuführen. Es können also Beispiele kommen, die der eine oder die eine andere vielleicht schon kennt. Aber wir führen sie hier noch mal zusammen und versuchen sie zu kontextualisieren.
Warum Banalität der Überwachung? Banalität, weil die Systeme des maschinellen Lernens im Kern sehr simpel sind, weil aber auch die Beeinflussung sehr subtil sein kann. Und das Ganze ist auch eine Reminiszenz an Hannah Arendt. Nochmal Kunst zu uns. Wie gesagt, ich werde die ersten 20 Minuten sprechen
über die Mensch-Computer-Interaktionsperspektive. Karin Ulrich wird die zweite Hälfte bestreiten. Karin ist wissenschaftliche Mitarbeiterin in Amsterdam, im Amsterdam Machine Learning Lab. Und sie forscht direkt zu den Algorithmen des maschinellen Lernens, insbesondere Bayesian Methods, hat also einen Hintergrund im Deep Learning und der Informationstheorie.
Ich bin wissenschaftlicher Mitarbeiter im Institut für Informationsmanagement Bremen. Und mir geht es um die Nutzererfahrung von Machine Learning, insbesondere das Vertrauen. Wir würden jetzt gerne anfangen mit einem Beispiel, das jeder kennt. Spam-Erkennung benutzt wahrscheinlich jeder hier, funktioniert auch nicht immer. Aber man muss sich wirklich vor Augen führen,
dass es eine beeindruckende technische Leistung ist, auch wenn es manchmal nicht funktioniert. Und wir nehmen es hier, um den Unterschied zwischen imperativer Programmierung und maschinellem Lernen zu verdeutlichen. Imperative Programmierung ist das, woran wahrscheinlich jeder denkt, wenn er an Informatik und Programmierung denkt. Es geht um Regeln und Anweisungen.
Wenn x, dann y. Das Wort Imperativ für Befehl steckt ja auch schon im Namen. Und wenn wir jetzt Spam imperativ erkennen wollen würden, dann würde man zum Beispiel gucken, okay, das Wort Viagra wird so geschrieben, in der Nachricht vorkommen, dann ist es ein Spam-Nachricht. Andererseits ist es eine gutartige Nachricht.
Maschinelles Lernen ist jetzt ein komplett anderer Ansatz. Da hat man eine Vorhersage, die man iterativ, also immer und immer wieder verbessert. Für die Spam-Klassifikation versucht man zum Beispiel Kombinationen von Wörtern zu finden, durch die es wahrscheinlich wird, dass es sich um Spam handelt. Der Kernbegriff ist hier also wahrscheinlich. Und das sieht dann so aus,
dass man für viele verschiedene Beispiele prognostiziert, ob eine Nachricht Spam ist oder nicht. Dann berechnet man einen Fehler mit einer geeigneten Fehlerfunktion. Und dann ändert man seine Parameter, um den Fehler zu verringern und geht wieder zum ersten Schritt und macht das immer und immer wieder. Natürlich ist es nicht ganz so einfach,
diesen Fehler zu berechnen und auch die Parameter zu verändern, ist ein eigenes Forschungsgebiet. Aber im Kern ist es wirklich so simpel, wie wir es hier darstellen. Und deswegen ist es spannend, im Hinterkopf zu behalten. Und dabei ist es aber spannend, im Hinterkopf zu behalten, dass Spam-Erkennen nicht mit Textverständnis gleich zu setzen ist. Das heißt, der Algorithmus muss sich erst Kafka verstehen können,
um zu erkennen, ob etwas Spam ist oder nicht. Und dieses Problem, das etwas wirkungsvoller aussieht, als es vermeidlich ist, wird uns im Laufe des Vortrags noch begegnen. Wir haben jetzt ein weiteres, immer noch vereinfachtes Beispiel für eine Entscheidungshilfe hier aus der Medizin. Das Ziel ist hier die Erkennung von Brustkrebs.
Statt Wörtern wie beim Spam haben wir verschiedene Features. Das heißt, Charakteristika, an denen man zum Beispiel Gutartigen von Bösartigen Brustkrebs unterscheiden kann. Dazu gehören hier der Radius, die Textur, Umfang, Fläche, Glätte, aber auch so Sachen wie die Symmetrie
und die Zahl konkarver Punkte, also nach innen gewölbter Punkte. Das seht ihr hier oben. Insgesamt gibt es in diesem vereinfachten Datensatz 32 verschiedene Charakteristika. Und wenn wir jetzt zwei Charakteristika wie zum Beispiel die durchschnittliche Zahl der konkarven Punkte und die durchschnittliche Fläche in Pixeln anschauen und abtragen,
dann erkennt man eine deutliche Tendenz. Ab einem bestimmten Punkt, ab einer bestimmten Zahl Punkte und ab einer bestimmten Fläche sehen wir nur noch bösartigen Brustkrebs. Das heißt, mathematisch können wir hier im Beispiel einfach eine Linie durch diesen Datensatz ziehen. Und das ist eine sogenannte Entscheidungsgrenze, die Decision Boundary.
Die Entscheidungsgrenze muss nicht linear sein. Es muss nicht eine einfache Linie sein. Die kann durchaus komplexer sein. Und in der Regel ist sie das. Und dieser Ansatz ist durchaus analog zu dem, was eine erfahrene Ärztin oder ein erfahrene Arzt mehr oder weniger bewusst machen würde. Nur die haben auch aus Erfahrung gelernt. Ab der Größe und ab der Fläche und der Zahl
ist es wahrscheinlich bösartig oder gutartig. Der Clou am Maschinellen Lernen ist jetzt, dass wir das für viele verschiedene Charakteristika gleichzeitig machen können. Und darüber hinaus profitieren wir sehr stark davon, wenn wir mehr Daten haben, weil wir dadurch bessere Entscheidungen treffen können, weil wir eine bessere Entscheidungsgrenze finden.
Ihr seht aber auch, dass eine gute Zahl an roten und blauen Punkten im Beispiel auf der falschen Seite der Grenze liegen. Das heißt, dort machen wir Fehler. Und da muss man im Hinterkopf behalten, dass es verschiedene Arten von Fehlern gibt und die auch verschiedene Auswirkungen haben. Falls ich zum Beispiel jemanden mit gutartigen Brustkrebs fälschlicherweise sage,
dass ihr Brustkrebs bösartig ist, löst das sicherlich Stress aus und ist keine angenehme Situation. Falls ich aber jemanden mit bösartigen Brustkrebs fälschlicherweise sage, dass ihr Brustkrebs gutartig ist und sie auch entsprechend behandle, kann das deutlich schlimmere Konsequenzen haben. Das ist jetzt natürlich ein vereinfachtes Beispiel.
Aber gleichzeitig werden wir zeigen, dass ähnliche Entscheidungshilfen durchaus in sehr kritischen Bereichen genutzt werden. Vorher wollen wir noch einmal die Wirkungsmacht von Big Data zeigen. Und da geht es darum, Persönlichkeitsmerkmale zu erkennen. Das heißt, hier nimmt man digitale Spuren wie Facebook-Likes, die relativ einfach zugänglich sind,
es aber ermöglichen, hochgradig sensible Persönlichkeitsmerkmale vorherzusagen. Das ist ein Paper von 2013. Und für die Studie haben sie 58.000 Freiwillige in den USA gefunden, die eine Facebook-App benutzt haben. Und die haben diese Facebook-App ihr komplettes Profil zur Verfügung gestellt.
Mit allen Likes, aber auch mit allen Informationen, wie zum Beispiel der sexuellen Orientierung oder der religiösen Zugehörigkeit. Und was jetzt gemacht wurde, ist mit einem sehr einfachen Modell, mit einem einfachen Regressionsmodell vorhergesagt, ob man anhand der Likes bestimmte Persönlichkeitsmerkmale erkennen kann.
Und es zeigt sich, dass man zum Beispiel mit 95%iger Genauigkeit erkennen kann, ob jemand weiß oder afroamerikanisch ist. Sexuelle Orientierung kann man auch mit sehr hoher Genauigkeit nur anhand der Likes erkennen, die das Geschlecht, die politische Orientierung,
die religiöse Zugehörigkeit, aber auch so Sachen wie die Drogenerfahrung und der Familienstand der Eltern in der Kindheit. Und ihr seht schon bei der religiösen Zugehörigkeit sind wir bei 82% Genauigkeit. Bei sowas wie Drogenerfahrung und der Ehe ist es relativ wenig mit der Genauigkeit. Es ist eine 50-50-Chance, wenn wir raten würden.
Aber es ist trotzdem eine Indikation. Und wir zeigen das auch nur, weil das wahnsinnige Möglichkeiten der Diskriminierung bildet. Und das passiert auch auf dem Wohnungsmarkt oder auf dem Arbeitsmarkt. Das heißt, was wir hier zeigen wollen, ist, dass wir unsere Vorstellung von Datenschutz überdenken und ausweiten müssen,
weil man halt auch Persönlichkeitsmerkmale inferieren können kann. Denn man kann mit solchen Modellen auch die Likes finden, die am aussagekräftigsten für ein bestimmtes Charakteristikum sind. Das heißt, wir haben hier drei Likes. Einmal die Marke Harley Davidson, Kringelpommes, Curly Fries
und das Musical Wicket. Und ich überlasse es euch mal herauszufinden, welches Bild mit niedriger Intelligenz, hoher Intelligenz und Homosexualität bei Männern verbunden ist. Diese durchaus fragwürdige Forschungsrichtung nennt sich Psychometrik oder auch Psychographie. Und das Spannende ist, dass sie ja relativ nah dran ist
am Kernversprechen von so Unternehmen wie Google und Facebook. Denn die versprechen ihren Kunden, ihren Werbekunden, wir finden für euch Leute, die sich für Dienst X oder Produkt Y interessieren könnten. Und hier haben wir jetzt das Element der Beeinflussung. Beeinflussung heißt hier, Big Data zu nutzen, um Leute zu finden. Und die Beeinflussung ist noch sehr banal.
Aber solche Forschung kann natürlich auch genutzt werden, um zum Beispiel in einer großen Menge von Wählerinnen jene zu finden, die noch überzeugt werden könnten. Und ja, viele von euch haben wahrscheinlich den Artikel in das Magazin gelesen, wo kolportiert wurde, dass diese Art von Psychographie für Trump und Brexit verantwortlich ist.
Vor der Bundestagswahl gab es ja auch eine große Diskussion, dass das hier passieren könnte. Wir glauben, dass das mit Vorsicht zu genießen ist, aber die Möglichkeit mit derartigen Ansätzen überzeugbare Wählerinnen und Wähler zu finden und anzusprechen, ist durchaus realistisch. Und wir haben schon gesehen, dass es dadurch so eine Art Diskriminierung 2.0 gibt.
Denn homophobe Arbeitgeber muss nicht mehr direkt erfragen, ob jemand homosexuell ist, wenn er es aus einem Facebook-Profil vorhersagen kann. Und es interessiert ihn vielleicht auch nicht, ob er da einen Fehler macht und einen Heterosexuellen möglicherweise falsch einordnet. Diese Beeinflussung kann aber durchaus direkter sein.
In den USA werden Algorithmen jetzt schon im Justizsystem als Entscheidungshilfe eingesetzt. Und da wird zum Beispiel mit bestimmten Informationen über die Leute vorhergesagt, ob jemand rückfällig wird, der im Gefängnis ist oder nicht. Das heißt, man versucht, vorherzusagen auf einer Skala von eins für ungefährlich bis zehn für hochgradig gefährlich,
wo jemand hinkommt. Und hier haben wir zwei Beispiele. Einmal den Herrn links, V.P., die Initialien, der hat zwei bewaffnete Raubüberfälle begangen und einen versuchten bewaffneten Raubüberfall. Und die Risikoeinschätzung ist hier drei, niedriges Risiko. Daneben steht die Dame B.B.
Die hat vier Ordnungswidrigkeiten unter Jugendstrafrecht auf dem Kerbholz. Und die wird eingestuft mit hohes Risiko. Und wie sieht das jetzt aus? Also die Leute von ProPublica, die das recherchiert haben, haben jetzt über zwei Jahre geguckt, wer wirklich rückfällig wird und wer nicht.
B.B., die Dame rechts, die begeht keine weiteren Verbrechen. V.P., der Herr links, der begeht nach seiner Freilassung direkt einen schweren Diebstahl. Das Besondere ist hier und die wir jetzt wahrscheinlich schon geraten haben, ist, dass der Algorithmus systematisch Afroamerikanerinnen diskriminiert. Es gibt also einen Bias, eine Verzehrung gegen Schwarze.
Darüber hinaus sind diese Vorhersagen von dem proprietären Kompasssystem nur in 61 Prozent der Zeit richtig, wenn man jetzt die wirkliche Rückfälligkeit über zwei Jahre nimmt. Und wir kennen das aus der Statistik. Dort unterscheiden wir den Fehler erster Art und den Fehler zweiter Art. Das heißt, unsere Nullhypothese ist, der oder die Straftäterin wird nicht rückfällig.
Der Fehler erster Art ist jetzt, dass die, die mit hohem Risiko eingestuft werden, aber nicht rückfällig werden. Und da sehen wir oder hat ProPublica herausgefunden, dass die Wahrscheinlichkeit, dass ein weißer oder eine weiße Opfer dieses Fehlers wird, bei 23,5 Prozent liegt und bei Afroamerikanerinnen liegt die Wahrscheinlichkeit
bei 44,9. Das ist also fast doppelt so hoch. Es gibt auch den Fehler zweiter Art. Das ist die Wahrscheinlichkeit, dass jemand mit niedrigem Risiko eingestuft wird, aber trotzdem rückfällig wird. Und hier ist die Wahrscheinlichkeit umgekehrt. Weiße haben eine 47 Prozent Chance, diesem Fehler zum Opfer zu fallen.
Afroamerikanerinnen nur 28 Prozent. Aber wie kommt das? Wir nehmen jetzt mal an, dass das kompetente Programmiererinnen sind, die in den Maschinen und den Kursen, die sie gemacht haben, gut aufgepasst haben und technisch alles richtig gemacht haben. Nun lernt Machine Learning immer eine Abbildung
von einem X auf einen Y. Zum Beispiel hier haben wir bestimmte Informationen zu Gefangenen und diese Rückfälligkeit der Gefangenen. Das Problem ist jetzt, das X ist keine Stichprobe der Grundgesamtheit, sondern eine Untermenge der Grundgesamtheit, die die Polizei untersucht hat. Das ist also ein X-Strich. Das ist nicht repräsentativ.
Das kann eine selbst erfüllende Prophezeiung sein, denn vielleicht sind Afroamerikanerinnen einfach in der Situation, dass sie deutlich häufiger kontrolliert werden und es einfach dadurch mehr Straffälle in dem Datensatz gibt. Und auf der anderen Seite, auf der Y-Seite, das heißt, diese Risikobeurteilung, ob man rückfällig wird oder nicht, ist ebenfalls eine Verfälschung.
Dann die bezieht sich auch nur auf die, die vom Rechtssystem verurteilt werden. Das heißt, hier haben wir auch einen Y-Strich. Und wenn man zum Beispiel ein Jury-System hat, wie man es in den USA findet, dann kann auch dort latent oder weniger latent diskriminiert werden. Und das macht Machine Learning,
Pseudoobjektive, mathematische Modelle zu einer Art Geldwäsche für Vorurteile, weil sie fallen in dieses System rein und sind dann erst mal nicht mehr sichtbar. Und hier kommen wir jetzt zum Element der direkten Beeinflussung. Denn diese Systeme werden zwar nur als Entscheidungshilfen verkauft, das sind nur Werkzeuge,
die genutzt werden können. Aber die Leute, die die Entscheidung treffen, verlassen sich direkt auf diese Systeme. Das heißt, die vertrauen diesen diskriminierenden Algorithmen. Und das Beispiel kommt aus dem hervorragenden Deutschlandfunk-Feature von Thomas Schimek. Und der hat zum Beispiel Veronika Hiller, die Bewährungshelferin, die dem Richter
im Endeffekt ein Strafmaß vorschlägt, interviewt. Und das Spannende ist, die hat also ein Vierteljahrhundert Erfahrung im Dienst, aber sie schwört auf diesen Algorithmus. Sie sagt, der ist gut, akkurat und einfach. Und was wir einfach zeigen wollen, ist, dass es hier um sozio-technische Systeme geht. Das heißt, es geht nicht nur um das Machine Learning. Es geht nicht nur
um den Algorithmus. Es geht auch um die Menschen, die ihn nutzen. Denn selbst wenn das System fair wäre, wir haben gerade gesehen, dass es das nicht ist, heißt es immer noch nicht, dass die Ergebnisse des Systems auch fair interpretiert werden. Und wir finden, das ist sehr wichtig für jene, die solche Systeme bauen. Da sind wahrscheinlich einige heute hier.
Diese Verzerrungen in- und durchdaten sind allgegenwärtig. Wir haben zum Beispiel hier ein Beispiel von Google. Das ist eine Suche nach den Keywords three white teenagers. Und das ist eine Suche nach den Keyword three black teenagers. Das heißt, Technologie offenbart hier gesellschaftliche Probleme.
Wir haben es, wie gesagt, mit sozio-technischen Systemen zu tun, die eine bestimmte Weltvorstellung festschreiben, vermitteln, aber auch verstärken können. Und die Probleme können ganz subtil und banal sein, wie zum Beispiel dieses Beispiel aus der statistischen Übersetzung zeigt. Jetzt muss man wissen, dass die türkische Sprache nicht zwischen Geschlechtern unterscheidet.
Das heißt, er, sie und es sind alle o. Es gibt auch keine Unterscheidung zwischen Arzt und Ärztin, beides Doktor. Und wenn wir jetzt mit Google Translate oder einem anderen statistischen Übersetzung dieses Programm Sätze wie er ist ein Babysitter und sie ist eine Ärztin hin und her übersetzen, dann stellen wir fest, dass die Übersetzung
bestimmte Geschlechter widerspiegelt. Und ihr könnt mit dem, was ihr bisher über Machine Learning gelernt habt in diesem Vortrag vielleicht schon erklären, wie das passiert. Wir lernen aus Beispielen und in diesen Beispielen sind Verzerrungen. In diesem Fall mehr weibliche Babysitter, mehr männliche Ärzte. Denn wenn wir übersetzen,
dann berechnen wir ja Wahrscheinlichkeiten und nehmen in der Regel einfach das wahrscheinlichste Ergebnis. Das heißt, selbst minimale Verzerrungen können verstärkt werden. Das heißt, eine Babysitterin mehr, ein Arzt mehr und diese Übersetzung sieht so aus, wie wir sie gerade sehen. Aber hier haben wir was, was technisch erklärbar ist. Aber welche Auswirkung
hat das auf die Nutzerin? Welche Auswirkung hat das auf die Weltsicht, wenn man die Google Ergebnisse so sieht, wie man sie sieht? Und anhand von Facebook wollen wir jetzt zeigen, wie direkt und intransparent diese Beeinflussung sein kann. Denn auch Facebook ist ein hochkomplexes, soziotechnisches System, in dem Nutzerinnen gleichzeitig Produzenten
und Konsumentinnen sind. Und Facebook erklärt, das Ziel lautet ja, jedem zu jeder Zeit die richtigen Inhalte zu zeigen. Dafür nutzt Facebook nach eigener Aussage 100.000 verschiedene Faktoren um algorithmisch die besten Geschichten aus den potenziellen Geschichten auszuwählen.
Das heißt, wenn ihr jetzt vorstellt und in den Medien, das sind jetzt Zahlen aus dem Kosinski-Paper mit den Persönlichkeitsmerkmalen. Das heißt, da haben im Medien 200, haben die Leute 200 Bekannte und liken 68 Seiten. Das heißt, wenn nur jeder Dritte was macht, dann sind das pro Tag 90 potenzielle Beiträge. Wenn man jetzt nur 5 oder 10
Minuten auf der Seite verweilt, dann kann man sich die nicht angucken. Das heißt, eine chronologische Darstellung ist zwecklos und eine Kuration unumgänglich. Und deswegen sortiert Facebook die Nachrichten nach einem Algorithmus. Das Problem ist aber, dass dieser Vorgang sehr intransparent ist. Das heißt, die Nutzerinnen sehen und verstehen die Algorithme nicht
und die glauben im Zweifelsfall, wenn sie sie, wenn sie darauf angesprochen werden, dass die Algorithmen objektiv und unabhängig sind. Und dabei beziehe ich mich auf folgende Studie. Die kommt aus der CHI, der Computer Human Interaction Community. Und dort waren sich 62,5 Prozent der Teilnehmer und Teilnehmerinnen
in dieser Studie der Existenz von Newsfeed-Algorithmen, also von dieser algorithmischen Kuration, nicht bewusst. Das heißt, wir haben hier eine qualitative Studie mit 40 Teilnehmerinnen, die so ausgewählt wurden, dass sie repräsentativ sind für die US-Grundgesamtheit. Und von denen war also 25 Personen nicht bewusst,
dass überhaupt irgendwie sortiert wird. Die Studie zeigt auch, dass die Teilnehmerinnen durchaus verärgert sind, wenn sie Posts von engen Freunden oder Familienmitgliedern nicht sehen. Das Spannende ist aber jetzt, die Teilnehmer suchen den Fehler eher bei sich oder anderen als bei einem Algorithmus, von dem sie im Zweifelsfall auch nichts wissen.
Wir glauben dann zum Beispiel, dass sie etwas übersehen haben oder sie denken, dass ihnen bestimmte Bekannten, was Bekannte bewusst Geschichten vorenthalten, weil sie vielleicht nicht so gut miteinander bekannt sind, sich noch nicht so gut kennen. Daher kommt auch dieses titelgebende Zitat. I always assumed that I wasn't really that close to that person. So that's fine.
What the hell? Das heißt, hier hat jemand gedacht, OK, ich sehe die Babyfotos vielleicht nicht, weil ich die Person nicht so gut kenne. Aber die Person hat das für alle geteilt. Und hier hat der Algorithmus jetzt diese Entscheidung getroffen, dass Person A dieses Baby von Person B nicht sieht. Das heißt, diese Systeme, die im Schatten agieren und denen sich die Benutzer
wenn nicht bewusst sind, haben Auswirkungen auf zwischenmenschliche Beziehungen. Sie reconfigurieren sie. Und darüber hinaus muss man sich auch noch mal bewusst machen, was diese Nachrichten Empfehlungssysteme eigentlich erreichen wollen, sind ja von der Art her wie Netflix. Das heißt, wenn ich jetzt auf YouTube oder einem anderen Portal
mir Videos angucke und ich gucke mir 10 Videos an und davon sind vier mit lustigen Hundebabys, dann folgert das System. OK, Henrik mag lustige Hundebabys. Dem zeige ich jetzt in Zukunft mehr lustige Hundebabys. Nun sind aber auch Nachrichten auf Plattformen wie YouTube. Das heißt, wenn ich mir jetzt 10 Videos angucke und von denen geht es in vielen
darum, dass Flüchtlinge kriminell sind, dann empfiehlt mir das System Videos von kriminellen Flüchtlingen. Das heißt, da passiert was mit meiner Weltwahrnehmung. Das heißt, so derartige Filterblasen und Echokammern entstehen online. Die gibt es natürlich auch im echten Leben. Der Freundeskreis ist auch eine Echokammer,
in dem bestimmte Weltvorstellungen geteilt werden. Aber hier sind sie durchaus intransparenter, denn es passiert unter dem gleichen Logo. Bei mir ist ein YouTube Logo, bei euch ist ein YouTube Logo. Und das sind Probleme, denen wir uns stellen müssen, mit denen wir umgehen müssen. Und das war mein Teil zur Perspektive
der Mensch-Computer-Interaktion, die sich also als eigenes Feld mit derartigen Fragestellungen auseinandersetzt. Und ich übergebe jetzt an Khan, die noch mal technisch ins Detail gehen wird. Viel Erfolg.
Ja, zum ersten Teil dieser Präsentation zeigten wir, dass Algorithmen uns schon heute beeinflussen, bewusst und unbewusst, direkt und indirekt. Und wir haben gesehen, mit welcher Rigorosität ihre Voraussagen umgesetzt werden, nachdem sie einmal zur Verfügung stehen. Das immer unter der Annahme der Unvoreingenommenheit. Wir haben auch bereits angedeutet,
dass dieses Massiv für Vertrauen nicht unbedingt angebracht ist. In diesem zweiten Teil der Präsentation möchten wir darauf eingehen, wann dieses Vertrauen nicht angebracht ist. Dabei möchte ich besonders auf ein Wort eingehen, das wir bereits viel verwendet haben. Das Wort Bias oder zu Deutsch Verzerrung. Im maschinellen Lernen können wir grundsätzlich
in zwei verschiedene Formen von Bias unterscheiden. Auf der eine Seite haben wir Bias der Daten, also Bias, der ein Spiegel ist unserer eigenen Vorurteile und Moralvorstellungen, ob uns das jetzt bewusst ist oder nicht. Bias in Daten kann aber auch entstehen, ganz zufällig durch mangelhafte Erhebung von Daten. Wenn das passiert, wird eine Grundgesamtheit,
also die Population verzerrt abgebildet. Auf der anderen Seite befindet sich der Bias durch das Modellieren. Das sind also die Gesamtheit aller Annahmen, die Ingenieure und Wissenschaftler von Algorithmen machen und machen müssen, um überhaupt Voraussagen treffen zu können. Dabei kann sich wiederum
der Bias des Modells so auf die Daten auswirken, dass der Bias in den Daten verringert wird. Dazu gibt es vielfältige Forschung. Es kann aber auch den Bias in den Daten verstärken. Auf der anderen Seite kann auch Bias in den Daten den Modellierbias beeinflussen.
Und wir werden im Folgenden, in den folgenden vier Beispielen uns mit all diesen Phänomenen auseinandersetzen. Maschinelles Lernen hat in den letzten Jahren viele Durchbrüche bei der algorithmischen Wahrnehmung erzielt. Algorithmen bewältigen kognitive Aufgaben, die vor kurzem in weiter Ferne schienen. Das hat aber auch eine Welle von Forschung ausgelöst,
die unlösbare, geglaubte Aufgaben wieder aufgreift und neu bewertet. Eine Studie dieser Welle ist im November letzten Jahres erschienen. Zwei Forscher der Shanghai Xiantong Universität behaupten, zeigen zu können, dass man Menschen mit kriminellen Absichten bereits an einem einfachen Ausweisfoto erkannt kann und dies mit 90 prozentiger
Trefferwahrscheinlichkeit. Dieses Ergebnis steht natürlich im starken Kontrast zu den Forschungsergebnis der letzten Dekaden, die Kriminalität eher sozioökonomischen Umständen zu schreiben. Wir wollen uns also im Folgenden mit dieser Studie ein bisschen näher beschäftigen. Die Autoren sammelten hierzu 1800 Fotos von Chinesen
im Alter zwischen 18 und 55 Jahren, die keine bemerkbaren Gesichtsbehaarungen, Narben oder Tattoos zeigten. Dabei repräsentieren circa 700 Fotos, die Reprik kriminell. Die Fotos selbst wurden von der Polizei bereitgestellt und es handelt sich bei allen Fotos um bereits verurteilte Straftäter.
Auf der anderen Seite mussten nun auch Bilder rechtschaffender Bürger repräsentiert werden. Dafür wurden 1100 Fotos aus verschiedenen Quellen des Internets beschafft. Dabei ist anzunehmen, dass diese von Seiten wie LinkedIn stammen, da die Autoren den Beruf der vermeintlich rechtschaffenden kennen. Um uns ein besseres Bild über die Daten zu machen, wollen wir uns also ein paar Datenpunkte anschauen.
Jeder dieser Reihe entsprechen drei Datenpunkte aus jeweils einer Kategorie kriminell oder rechtschaffend. Dazu würde ich kein kleines Experiment wagen. Also ich zähle dann gleich mal bis zwei. Und alle die glauben, die obere Reihe seien die rechtschaffenden, die bitte ich dann die linke Hand zu heben. Also ich hebe die rechte Hand, damit ihr wisst, welche Hand.
Und diejenigen, die denken, die untere Reihe wären die rechtschaffenden, die bitte ich also die rechte Hand zu heben. Das können wir gleich mal probieren. Also ich zähle mal bis zwei. Eins, zwei. Und dann hebe mal die Hand. Okay, also die meisten von uns sind uns relativ einig, dass wir die rechtschaffenden identifizieren können. Aber warum können wir das?
Eigentlich sollten Menschen dazu ja nicht in der Lage sein. Und wir wissen, dass wir dazu nicht in der Lage sind. Ich denke, also die meisten von uns haben gewisse Hinweise in den Bildern wahrgenommen, die auf der Unterschiedlichkeit der Quellen beruhen. Also ganz offensichtlich hier der Kragen im Bild, der darauf hinweist, dass das vielleicht ein Bewerbungsfoto sein könnte oder ein leichtes Grinsen im Gesicht.
Da hingegen sind die Leute, die auf der kriminellen Seite sind, nicht besonders vorteilhaft dargestellt. Also hier wird der Scheinwerfer ins Gesicht gestrahlt. Was dann Hautunreiten und Falten besonders betont. Wohingegen bei den Bewerbungsfotos offensichtlich Make-up im Spiel ist oder Photoshop.
Im trivialsten Fall kann das also sein, dass der Algorithmus einfach nur erkennt, in welchen Fotos Photoshop nachgeholfen hat. Das kann man also zum Beispiel schon an lokalen Pixel Statistiken gut erkennen. Diese Studie ist vielleicht ein extremes Beispiel. Wie gravierend sich die verwendeten
Daten auf das Ergebnis einer Voraussage eines Algorithmus auswirken können. Dies ist ein besonders starkes Beispiel für Stichprobenverzerrung, also Bias, in dem Gruppen unterschiedlich dargestellt werden. Bias kann aber auch entstehen ganz zufällig, wenn zu wenige Datenpunkte vorhanden sind, um verlässliche Aussagen zu treffen. Solche Probleme sehen wir also oft in medizinischen Studien
oder psychologischen Studien, wo Tests teuer und langwierig sind. Meldebias schreibt, wenn Befragte unkorrekte Angaben machen. Das geschieht zum Beispiel oft bei Gewaltverbrechen, bei denen Angst und Repression eine Rolle spielen. Und natürlich spielen auch die verwendeten Merkmale, die ein gewisses Problem
beschreiben sollen, eine große Rolle. Kommen wir nun zu zweiten Kategorie, dem Bias in den Modellen. Hat man sich früher, also vor dem Deep Learning Hype, sagen wir mal vor 2012, in einer Einführungsveranstaltung zum Maschinellen Lernen gesetzt, dann begann fast jede mit dem Erklären des No-Free-Lunch-Theorems. Also der Aussage,
dass kein Modell in allen möglichen Szenarien funktioniert. Daraus Schlussfolgerten wir, dass wir Annahmen machen müssen, die das Modell im Hinblick auf unser spezifisches Problem beschränken. Diese Annahmen haben aber ihre Grenzen. Dann versagt das Modell, ohne dass sich das Modell darüber bewusst ist.
Das heißt also, unser Job als Wissenschaftler oder Studierende ist es, diese Grenzfälle zu benennen und zu testen, ob in unserem speziellen Anwendungsfall diese Algorithmen nicht versagen. An diesen Prinzipien
hat sich auch bis heute nichts geändert. Aber der Erfolg des Maschinellen Lernens in bestimmten Bereichen lässt selbst uns Wissenschaftlerinnen diese universalen Regeln manchmal vergessen. Wir sind dann versucht zu glauben, dass Modelle so flexibel sind, dass die Grenzen quasi nicht mehr existieren. Am Folgenden möchte ich aber auf ein Beispiel eingehen, das sich auch mit dem Deep Learning Hype gar nicht geändert hat.
Und das ist das Problem der Zielsetzung und die Frage, wie Erfolg zu bewerten ist. Am Beginn des Vortrags sprach Hendrik über das Messen von Fehlern und dass das Korrigieren dieser Fehler ein wichtiger Mechanismus sei, um Algorithmen zu trainieren. Doch was ein Fehler ist, ist oft nicht einfach zu bestimmen und es liegt in der Hand
des Ingenieurs zu definieren. Zum Beispiel, wie mäße ich Erfolg bei YouTube Empfehlungen, mäße ich die Zeit, die jemand auf der Plattform verbringt. Das kann aber auch bedeuten, dass der PC vielleicht nur in der Ecke steht und die Person gar nicht mehr im Raum ist. Oder mäße ich die Anzahl von Klicks. Aber wenn diese zu Frequent sind, dann bedeutet das vielleicht, dass die Person das Video gar nicht mag.
Ein anderes Problem sind Übersetzungen. Stellen Sie sich nur also vor, dass wir einen Kopus von Übersetzung haben und wir wollen messen, ob ein Text richtig übersetzt wurde. Wie können wir das messen? Wort für Wort
oder Paragraph für Paragraph. Wenn wir Wort für Wort messen, dann spielen wir vielleicht mit der Worteinfolge in verschiedenen Sprachen und das funktioniert dann nicht so gut. Wenn wir Paragraph für Paragraph messen, funktioniert das vielleicht nicht so gut, weil der Algorithmus den Kontext nicht mehr begreift. Und wie gehen wir mit Synonym um? Wenn also der Algorithmus ein richtiges Synonym gefunden hat,
wird dann trotzdem ein Fehler berechnet. Wenn der spezielle Datenpunkt besagt, dass das vielleicht ein anderes Synonym zu übersetzen ist. Man muss also Entscheidungen treffen. Die Ingenieure bei Google und anderen führenden Übersetzungssystem beantworten die Frage folgendermaßen. Wir übersetzen
Satz für Satz. Dabei gehen wir davon aus, dass Sätze unabhängig sind und nur das wahrscheinlichste Wort oder die wahrscheinlichste Phrase wird richtig bewertet. Wenn wir also nochmal auf das Beispiel aus der ersten Hälfte des Vortrags eingehen. Wenn wir nun Sie ist eine Frau. Sie ist Ärztin.
In das genderneutrale türkisch übersetzen zu obiokardin, obiodoktor und dann zurück übersetzen ins deutsche. Dann wird dies mit Sie ist eine Frau. Er ist Arzt übersetzt. Und jetzt wissen wir auch warum. Da wir Annahmen, dass Sätze unabhängig sind, weiß der Algorithmus gar nichts vom Kontext. Also dass wir hier über eine Frau sprechen.
Wenn der Algorithmus obiodoktor dann übersetzt, übersetzt er nur die wahrscheinlichste Phrase und dies erst Arzt. Es handelt sich hier also nicht um Beiß in den Daten oder zumindest nicht unbedingt, sondern um Beiß in den Annahmen, die das Modell zu sehr vereinfachen. Ein zweites Beispiel
führt das noch klarer vor Augen. Wenn wir hier eben den Punkt durch ein Komma ersetzen, dann kann der Algorithmus es richtig übersetzen, weil er sich des Kontexts bewusst ist. Am nächsten Beispiel um das Phänomen Beiß wollen wir zeigen, wie Beiß in Modellen, Beiß in Daten verstärken kann.
Dies wird besonders im sogenannten aktiven Lernszenario bewusst. Aktives Lernen funktioniert wie folgt. Wir haben Daten, auf deren Grundlage wir einen Algorithmus lernen. Für manche Voraussagen sind wir uns aber nicht sicher. Darum fragen wir einen menschlichen Experten um Rat und der Algorithmus fragt dann meistens die folgende Frage.
Habe ich diesen Datenpunkt richtig bewertet? Und falls nicht, bitte um Feedback. Das führt dazu, dass der Algorithmus in der Zukunft mehr Daten zur Verfügung gestellt bekommt, um dann besser zu lernen und weniger oft um Hilfe fragen zu müssen. Das klingt gut und so viel zum störungsfreien Ablauf.
Was aber nun, wenn ein Datenpunkt mit falschen oder verzerrten Merkmalen beschrieben wird? Und dazu kommt, dass unser Mensch vielleicht nicht so wachsam ist, wie wir in unserem Modell annehmen. Wir haben also eine kleine Verzerrung im Datensatz und die Annahme des idealen Menschen wird verletzt in unserem eigentlichen Phänomen.
Dieser falsche Datenpunkt wird also ignoriert. Das führt dann dazu, dass, obwohl die Ursache der Verzerrung nicht mehr aktiv ist, dieser Datenpunkt nun vermehrt wird aufgrund der Tatsache, dass der Mensch nicht auf die Frage habe ich diesen Datenpunkt richtig bewertet, reagiert.
Und das führt dann wiederum dazu, wenn man mehr verzerrte Daten hat, dass diese mehr verzerrten Daten sich immer weiter vermehren können. Wann kann ich das also jetzt in freier Wildbahn beobachten? Das ist relativ schwer zu sagen, weil sich natürlich solche großen Player wie Google oder Facebook nicht immer in die Karten blicken lassen. Aber ich denke, ein Tweet aus dem vergangenen Jahr
lässt darauf schließen, dass das vielleicht hier passiert sein könnte. Also eine Afroamerikanerin mit Kussmund in der Mitte unten wird hier als Gorilla bezeichnet. Das ist eine geschichtsträchtige Bezeichnung für Afroamerikaner in Amerika und hat natürlich große Wellen geschlagen. Google erklärt die Ursache des Fehlers nicht genau genug, um genau zu wissen,
was ihn ausgelöst hat. Aber zwei Probleme können eine Rolle gespielt haben. Also eins wäre, dass die Bildbeschreibung immer von Menschen bereitgestellt wird und die erlauben sich gerne mal zu trollen und verfälschen das originale Datenset damit. Das kann aber nicht die einzige Ursache sein. Es kommt also mindestens noch dazu, dass gewisse Gruppen von Menschen entweder einfach sehr klein
sind in einer Gesellschaft oder unterrepräsentiert sind. Und vielleicht auch drittens, man muss schon sagen, dass bei großen Tech-Würmen sehr wenig Grenzszenarien oder Szenarien getestet werden. Wir denken da zum Beispiel an den Microsoft Chatbot, der ganz ähnliche Phänomene gezeigt hat, der dann auch sehr rassistische
Chat-Nachrichten geschrieben hat. Das letzte relevante Beispiel zum Thema Bias soll aus dem Bereich des übertragenen Lernens kommen. Hierbei ist das Ziel eine Aufgabe, das lösen eine Aufgabe, Verzeihung. Und diese Aufgabe hat aber nur wenige Datenpunkte und das sind nicht genug, um den Algorithmus erfolgreich lernen zu lassen.
Aber es gibt eine ähnliche Aufgabe, die erfolgreich gelöst werden kann. Und die Idee ist nun das gut funktionierende Modell zu verwenden, um unseren eigentlichen Problem zu helfen. Diese Technik führt aber wieder zu Verzerrungen, die nur schwer bestimmt und kontrolliert werden können. Das wird klar, wenn wir ein konkretes Beispiel
betrachten. Wir können eine ganze Halle voll Roboterarme stellen, um ihnen bestimmte motorische Aufgaben beizubringen. Aber selbst tausend Roboterarme lernen nur mühsam. Was also gang und gäbe ist in der modernen Robotik, sind, dass man Systeme in Simulation üben lässt.
Systeme werden also für tausende Jahre in Simulation geübt. Das ist natürlich aber nie Realität. Also wir denken da an Gravialisationssimulation, die Fehler unterhalten kann, Lichtbedingungen, die nicht ganz real sind oder der idealisierte Roboterarme, der hier verwendet wird. In diesem Zusammenhang möchte ich auch sagen, wie attraktiv auch die die Zukunft
mit selbstfahrenden Autos erscheinen mag. Mit ihren Versprechen nach mehr Platz entsteten weniger Unfällen und effektiverer Verkehrsführung. So sollte man auch sehr skeptisch sein, denn auch diese Systeme haben die meiste Lebenserfahrung in Simulationen gesammelt. Eine ganz andere Betrachtungsweise auf Daten ist die der Datendichte.
Daten können dicht beieinanderliegen oder weit voneinander entfernt. In Bereichen mit vielen Daten ist es oft einfach, korrekte Aussagen zu treffen. Neue Datenpunkte in diesen Bereichen zu beschreiben, nennt man Interpolation. Wohingegen Bereiche mit wenigen Daten oder keinen Datenpunkten sehr schwer zu beschreiben sind.
Diese Aufgabe schreibt man mit Extrapolation. Korrektes Extrapolieren ist im Allgemeinen nicht möglich oder nur möglich, wenn man korrekte Annahmen über den Entstehungsprozess der Daten macht. Interpolieren, also das Wandern von einem oder mehreren Datenpunkten zum anderen. Kann so wichtige Fragen des Alltags beantworten, wie wie würde das Kind
von Kim Jong-Un und Donald J. Trump aussehen? Neueste Anwendungen dieser Technik beinhalten auch das gezielte Verändern von Video in Bild und Sprache. Beispielweise wurde hier das Gesicht von der Hauptdarstellerin des Wonder Woman Films Gail Gettend auf einen pornografischen Film gelegt.
Man muss nicht weit denken, um sich die Konsequenzen solcher Techniken für Fake News zum Beispiel vorzustellen. Im extremsten Fall gibt es ja wenige oder keine Daten, wo eine Aussage getroffen werden soll. Nun ist es wichtig, die richtige Annahmen zu treffen, um Extrapolieren zu können. Das haben wir ja bereits gesagt. Das ist aber eine extrem schwere Aufgabe.
Zu der auch moderne Wissenschaft nur wenige und unvollständige Antworten weiß. Was also anstatt in aller Regel passiert, ist, dass Algorithmen keine Annahmen machen. Und das kann zu unvorhergesehenen Phänomen führen. Im schlimmsten Fall kann man dieses Wissen auch nutzen zu sogenannten feindlichen Attacken auf Algorithmen. Eine Attacke verläuft beispielsweise so.
Man nehme einen Datenpunkt aus dem Datenset und dessen beschreibende Merkmale. Also hier zum Beispiel die Bilder von Verkehrsschildern und die Verkehrsschilder. Man suche dann fernab von den Daten einen Punkt, der sehr ähnlich ist, den aber der Algorithmus mit einem ganz anderen Merkmal beschreiben würde. Und das Gruselige ist,
dass dies auch funktioniert mit ausgedruckten Versionen derselben Attacke und wenn man nicht die selben Daten und nicht mal dasselbe Modell kennt oder verwendet. Wen das interessiert, den empfehle ich sehr für die nächste Präsentation zu bleiben.
Das wird, glaube ich, der Kernpunkt der nächsten Präsentation sein. Abschließend zum Thema möchte ich noch mal dann deutlich machen, dass in allen Systemen des modernen maschinellen Lernens Korrelation evaluiert wird und nicht Kausalität. Mathematische Kausalitätsforschung, also dem Suchen nach Ursache und Effekt
für komplexe Systeme ist erstens ein Kinderschule und Korrelation zu finden und zu beschreiben ist nur einer der Schritte, der dazu nötig ist. Bevor ich die Frage dann die Runde für Fragen öffne, haben Henning und ich noch ein Anliegen. Also ich hoffe, wir haben umfassend die technischen Möglichkeiten des maschinellen Lernens dargestellt und welche Begrenzungen
es aufweist. Letzteres soll und wird uns als Gesellschaft aber nicht davon abhalten, diese großartigen Fortschritte zu genießen. Also denken wir da an Medizine und molekulare Biologie, in denen diese Techniken ein großes Versprechen und auch schon geliefert haben. Daraus ergeben sich trotzdem große politische Fragen, die uns alle was angehen.
Entscheidungen, die Wissenschaftler nicht alleine treffen können, wollen oder sollten. Also wir müssen uns Sachen fragen wie wer soll im konkreten Fall Entscheidungen treffen, Menschen oder Maschinen? Wer ist schuld, wenn Fehler passieren, Ingenieure, Firmen, Staat oder vielleicht gar niemand? Wie können staatliche
Garantien wie Gleichheit juristisch umgesetzt werden im Angesicht solcher neuen Algorithmen? Und natürlich auch, wie können Algorithmen oder sollten Algorithmen reguliert werden? An der Stelle möchte ich mich bedanken für Aufmerksamkeit und würde die Runde eröffnen für Fragen.
Vielen Dank, Karin. Vielen Dank, Henrich. Wenn ihr Fragen habt, bitte alle Mikros aufstellen und ja, dann schön warten.
Mikrofon eins, bitteschön. Ja, vielen Dank für den großartigen Vortrag. War super spannend und es ist, glaube ich, ein sehr, sehr wichtiges Thema. Wie gehen wir damit um? Weil es wirklich Auswirkungen hat auf die politische Organisation, auf die Demokratie, all diese Sachen. Jetzt vom Beispiel,
das Henrich gebracht hat im ersten Teil, ging es jetzt auch zum Beispiel über die Anwendung von KI für, ja, sagen wir, politische Propaganda, könnte man auch sehen. Cambridge Analytica, die ganzen Sachen und gleichzeitig als zweites Thema natürlich die Filter Bubbles, die sich bilden,
also wo natürlich auch eine Verstärkung dieses Phänomens möglich ist. Meine Frage, die ich mich in diesem Jahr gestellt habe und mit Brexit, mit Trump Wahlen und so weiter. Was sind die Möglichkeiten, die sich bieten, um dem entgegenzuwirken,
dass sich Meinungen so stark durch Filter Bubbles polarisieren, dass Leute durch targette Advertisements beeinflusst werden, die mit AI generiert werden und Big Data. Wie, ja, habt ihr konkrete Vorschläge?
Ja, vielen Dank für die Frage. Es geht also darum, was man jetzt gegen diese Probleme, insbesondere im politischen Bereich, machen kann. Und es ist natürlich eine riesige Frage, wird uns wahrscheinlich auch noch lange begleiten. Ich glaube, kognitive Diversität im Bekannten und Freundeskreis ist ganz wichtig, vor allem aber auch in Unternehmen.
Und unsere Ansätze, so kommen sie ja zusammen. Mir geht es ja darum, wie können wir Leute unterstützen? Wie machen wir Visualisierung? Wie machen wir Algorithmen sichtbar? Wie helfen wir den Leuten zu verstehen, was da passiert? Meine Perspektive, Can's Perspektive dann. Wie können wir die Algorithmen, die Black Box aufmachen? Wie können wir erklären? Wie kann ein System auch sagen, wie sicher es ist
mit seiner Vorhersage? Also es gibt ja auch viel Arbeit. Es gibt die Fairness, Transparency, Fairness, Accountability and Transparency in Machine Learning, fatml.org. Da gibt es eine ganz große Gruppe von Leuten, die sich damit auseinandersetzt, auch aus ganz verschiedenen Richtungen, weil es gibt viel Arbeit dazu in der Psychologie, in der Soziologie,
aber auch halt in der Informatik. Genau fatml.org ist eine sehr gute Adresse für sowas. Eine Bitte an die, die gerade rausgehen, macht das bitte so leise, wie es geht und versucht durch die Tür zu meiner Linken, zu eurer Rechten, dort hinten, den Saal zu verlassen. Dankeschön.
Mikrofon 5. Du hast eine Frage. Ja, eher ein kurzer Kommentar aus dem Bereich des Machine Learnings. Ist das, was wir da gesehen haben bei der Verwägung, bei dem Gorilla-Beispiel ebenso wie bei dem Übersetzungsbeispiel nicht eher ein ein Bias in der Kostenfunktion? Dadurch, dass wir dem Algorithmus gesagt haben, es ist genauso teuer,
wenn du die Klasse Gorilla mit der Klasse, mit der anderen Klasse verwechselst versus, dass du die Klasse, die Oberklasse Mensch mit der Oberklasse Tier verwechselst oder in dem Gender-Beispiel, dass er und sie als Verwechslung eines einzelnen Wortes genauso teuer sind wie beliebige andere Wortverwechslungen.
Sehr guter Punkt. Also man kann natürlich in der Kostenfunktion dagegen vorwirken. Man kann sagen, dieser Fehler ist schlimmer für uns als der andere Fehler. Aber wenn wir davon ausgehen, dass alle Klassen gleich sind, und wir einfach für alle Klassen gleich gute Ergebnisse haben wollen, und das kommt ja aus Google Photos, wo wir das für alle Kategorien machen wollen,
dann kommt der Mensch wieder rein. Es ist dann nicht mehr allgemeines Machine Learning, sondern es ist wieder so Fricke-Lösung. Und dieses Problem des Bias und darum ging es ja, ist einfach dem Machine Learning inhärent und wir müssen damit umgehen. Und ich glaube nicht, dass man es einfach in die Kostenfunktion schreiben kann. Oder willst du noch was dazu sagen? Ja, der Punkt von dem Beispiel war ja auch quasi wie einerseits, da muss
ein falscher Datenpunkt existiert haben und wie das quasi durch die ein Bias vielleicht oder eine Annahme in der Kostenfunktion dann eigentlich noch viel verstärkt wird. Also es geht ja darum, wie quasi so eine Negativspirale manchmal losgetreten werden kann, dadurch dass wir Bias einerseits in den Daten haben, aber auch gewisse Annahmen machen, die vielleicht
die Realität zu sehr vereinfachen. Also das war ja der Punkt dieses Beispiels. Und vielleicht dazu noch, das sind natürlich sehr offensichtliche Beispiele, auch um das hier deutlich zu machen. Es gibt natürlich auch immer diese Blindstellen, so Blindspots, wo halt was passiert, von dem wir das gar nicht wissen. Das ist ja auf eine Art auch ein Blindspot, der vielleicht auch damit zusammenhängt, dass Google nicht divers genug ist
und nicht genug Leute derartige Daten damit getestet haben, bevor sie es public gemacht haben. Mikrofon 1, deine Frage. Ja, vielen Dank. Euer Vortrag war ja so ein bisschen auch als Einführung gedacht, das Thema auf die Agenda zu bringen, was ich ganz großartig finde. Aber deswegen hätte ich jetzt eher so eine kommunikationsstrategische Frage. Ihr habt ja ganz viele
über Bias gesprochen, über Verzerrung. Wenn man das so sagt, denkt man impliziert ganz oft an neutral und unverzerrt. Und ich fand es toll, du hattest das No-Free-Lunch-Theorien da. Also sagen Machine Learning ohne Bias gibt es gerade nicht. Du hast auch gerade gesagt, das ist Machine Learning inhärent. Aber das ist halt ganz wichtig zu sagen. Deswegen wollte ich einfach mal fragen, wenn es um politische Debatten geht, wenn es um öffentliche Debatten geht,
ob ihr dann denkt, dass Bias und Verzerrung sozusagen das der richtige Header ist, um das alles zu thematisieren, weil es eben dieses neutrale Unverzerrte immer mitimpliziert oder denkt, dass man das dann mal anders frame müsste. Wir sind auf jeden Fall keine Kommunikationsstrategien. Es gibt natürlich viele hervorragende Mediensoziologen,
Kommunikationswissenschaftler es wahrscheinlich viel besser machen können. Wir wollten jetzt erst mal in diesem Rahmen zeigen, welche Probleme wir als Techniker, als Informatiker, wir promovieren ja beide zu diesen Themen sehen. Also das wird uns aber wirklich auch noch sehr lange beschäftigen, das richtig an die Leute zu bringen.
Dankeschön. Wir haben eine Frage aus dem IRC. Ja, danke. Eine Frage aus dem Internet. Hat menschliches Lernen nicht genau genommen dieselben Probleme wie maschinelles Lernen oder gibt es da einen prinzipiellen Unterschied? Also,
das ist eine Frage, die natürlich nicht nur das maschinelle Lernen betrifft, sondern auch die Psychologie oder die Evolutionsforschung, zu der ich mich nicht auskenne. Der Algorithmus oder die Idee, die Grundidee des maschinellen Lernens ist ja quasi Fehler festzustellen und die dann zu kommunizieren.
Und das Modell wird daraufhin besser. Ob das jetzt bei uns Menschen so funktioniert, ich bin mir nicht sicher, ob das jemals jemand genauso gesagt hat. Aber ich glaube, im Sinne von, dass unser Gehirn optimiert, das wird oder das habe ich bestreiten gehört von Psychologen.
Also die Frage ist nicht so sehr wie das Problem, was ich mit der Frage habe, ist nicht so sehr, wie das maschinelle Lernen funktioniert, sondern wie wir selbst funktionieren. Ich glaube, wir sind auch gerade auf dem Weg, das selbst rauszufinden. Und die Modelle des maschinellen Lernens sind oft nur grobe Vereinfachungen dafür, wie wir selbst funktionieren. Genau, ich würde auch sagen,
es ist bio inspiriert. Es gab bestimmt, es gab auch eine Zeit, wo alles Maschinen waren, der Körper als Maschine. Das war die Metapher ihrer Zeit. Jetzt haben wir diese künstlichen neuronalen Netzwerke und jetzt sind das die Metaphern, die wir nutzen. Also ich glaube, da ist ein fundamentaler Unterschied zwischen menschlichem und künstlichem Lernen. Es gibt auch so einen zentralen Leitsatz im maschinellen Lernen,
der besagt, dass alle Modelle falsch sind und einige vielleicht nützlich sind. Und ich denke, das trifft auch uns Menschen zu. Also alle Modelle, die wir verwenden, alle Annahmen, die wir machen, alle Stereotypen, die wir benutzen, die sind vielleicht manchmal nützlich, aber in der Gesamtheit immer falsch. Ich denke, das trifft für Menschen und Maschinen zu.
Dankeschön. Mikrofon 4, deine Frage. Vielleicht eine etwas naive Frage, aber bestehen oder gibt es Metriken um diesen Bias, der uns täglich im Netz begegnet, zu bewerten?
Also dass man das schon visualisieren kann oder vermitteln kann, dass man sich in einem hohen Bias, also einer hohen Verzerrung bewegt oder auf glatt heiß läuft in dem Sinne relativ, also ein hochkomplexes Thema wirklich runtergebrochen auf eine, sage ich mal,
Bewusstbarmachung von hoher statistischer Verzerrung, die einem umgibt. Durchaus Forschung in die Richtung. Es gibt zum Beispiel die Civic Media Group am MIT Media Lab, die sich mit sowas auseinandersetzt. Die haben aber sind dann so einzelne Beispiele, wo sie zum Beispiel Leuten einfach mal zeigen, was für ein Gender Bias sie bei den Leuten,
die sie auf Twitter folgen, haben. Also die folgen dann nur Männern zum Beispiel. Also solche Bewusstbarmachungen sind wichtig, sind, glaube ich, auch ein Teil des Puzzles. Aber ich glaube, die Medienpädagogik muss halt ernst genommen werden. Den Leuten muss das bewusst sein. Wenn wir diese Dinger benutzen wollen, wenn wir in solchen Autos rumfahren wollen, dann müssen wir das verstehen. Sonst werden es es gibt
halt immer diese Blindspots und man kann einfach da nicht drauf eingehen. Man kann halt nicht jeden Spot da bedenken vorher. Um auch mal vielleicht die Frage zu kontextualisieren von einem Algorithmus wissenschaftlichen Blickpunkt. Wir machen jetzt nicht unbedingt den Unterschied zwischen
vielleicht dem, was eine Verzerrung oder eine negative oder eine positive Verzerrung ist, also wahrgenommen wird, sondern für uns gibt es halt nur Merkmale, die halt auf gewisse andere Merkmale schließen lassen. Und das führt dann wieder zu der Frage der Korrelation. Und wenn wir sagen, es gibt gewisse oder wir haben jetzt oft ja Merkmale,
die Proxys sind für andere Merkmale. Also wo ich wohne, ist oft ein Proxy dafür, wie ich aussehe oder woher ich komme. Was ich also im Machine Learning machen kann oder wie sich die Wissenschaft damit auseinandersetzt, ist zu sagen, OK, wenn ich weiß, welche Merkmale sensitiv sind, also welche ich nicht möchte,
dass die mein System korreliert mit der eigentlichen Aussage, die ich das System treffen soll, dann kann ich quasi in meine Fehlerfunktion einen extra Term reinspeisen, der sagt, du dekorrelierst jetzt das Ergebnis, was du hast, mit dem besonderen Merkmal, was du als sensitiv,
also zum Beispiel der Wohnort oder dein Bildungsstatus oder dein Einkommen, dass die keine Rolle spielen dafür, wie der wie der Algorithmus Voraussagen macht. Was ich jetzt meinte, war jetzt wirklich nicht die Unterscheidung zwischen gut und schlecht, sondern wirklich eine Visualisierung
dieser Datensatz oder dieses Ergebnis basiert auf wenigen Datensichten und der also ist klar im Kontext kompliziert zu bewerkstelligen, aber dass man eine Möglichkeit findet, sowas zu darzustellen, dass diese Daten auf einer hohen Datendichte basieren und so weiter.
Also unsere Antwort ist quasi, es gibt solche Sachen, es gibt sowas zu messen, aber es ist immer eine Reduktion von Komplexität und da verliert man immer was und da muss man sich immer bewusst machen, wie viel reduzieren dürfen wir? Wie einfach dürfen wir es machen? Zur Frage der Datensichte kann man vielleicht noch sagen, da ist wieder ein anderer Kernansatz
das sogenannte bäsianische Kernansatz, der sich jetzt nicht die Frage stellt, wie ist meine Hypothese aufgrund der vorhandenen Daten zu bewerten, sondern wie sind meine Daten aufgrund meiner verwendeten Hypothese zu bewerten? Das ist also nochmal eine ganz andere Ansicht auf die Sache und der wiederum erlaubt uns dann gewisse Unsicherheiten
auszudrücken über Voraussagen, die ich treffe. Also wenn jetzt zum Beispiel ein Datenpunkt, über den ich eine Aussage treffen will, weit abliegt von Daten, die ich habe, dann wird dieser Ansatz oder wenn ich diesen Ansatz verwende, wird mir dann sagen, über die Voraussage, die ich jetzt hier treffe, bin ich sehr unsicher. Und das ist eine Forschungsrichtung, mit der sich viele Leute beschäftigen, die aber jetzt für diese großen
komplexen Systeme, ich würde sagen, noch sehr am Anfang steht. Jürgen von Eins, bitte. Ja, danke für den super interessanten Vortrag und danke auch an die Gebärdendolmetscherin, die hier ohne Unterlass die ganze Zeit übersetzt.
Ich habe voll eine Frage, wie nützlich wird ihr das einschätzen, dass mit einer Qualitätskontrolle, also Qualitätsmeilenstein für das Endergebnis zu kombinieren? Also als Beispiel
ein Auto ist dann hinreichend gut, wenn es im Verkehr weniger Leute umbringt als ein durchschnittlicher menschlicher Fahrer oder so was. Würde das einen zusätzlichen Nutzen ergeben? Kann man daraus noch mehr Rückschlüsse ziehen? Oder sind das völlig getrennte Sachen? Also das ist eigentlich das, genau das, worauf wir hinaus
wollten, dass das eine politische Frage ist, die wir nicht beantworten wollen. Oder eine juristische. Oder eine juristische. Das müsst ihr sagen, was ihr richtig findet. Das ist doch nicht unsere Aufgabe. Die Gesellschaft muss es aushandeln. Wir können Probleme aufzeigen, aber die Antwort muss die Gesellschaft als Ganzes finden. Das ist klar. Die Frage ist nur, wenn man so einen Punkt definiert hat und sich dann die Ergebnisse
anschauen würde, die kurz vor und kurz nach diesem Punkt aufgetreten sind. Ob das Rückschlüsse zulassen würde auf irgendeinen Bias oder irgendwelche anderen Sachen oder ob dieser Punkt völlig unerheblich für euch wäre. Und können Sie noch mal den Punkt benennen? Also man definiert irgendeinen Punkt X, der ein bestimmtes Qualitätskriterium hat. Also der Wagen bringt eben
nicht mehr Menschen um als ein durchschnittlicher Fahrer, sondern weniger. Sind die Ergebnisse, die um diesen Punkt liegen, die man dann messen kann, sind in irgendeiner Art und Weise relevant für den Ausgang? Kann man da irgendwelche Rückschlüsse draus ziehen? Oder ist das auch nur irgendein Punkt wie jeder andere auch?
Also ich finde es problematisch, diesen Punkt zu finden, weil man ja auch den ganzen Kontext sehen muss bei den Autounfällen und warum sie passieren, also welche Gründe sie haben und das Ganze zu datafizieren, das in einen Punkt zu pressen und den dann als Evaluationsmetrik für was anderes hochkomplexes zu nehmen, halte ich für sehr problematisch. Ich glaube, da ist wirklich das meint Kahn, die politische Antwort wichtiger.
Ja, beim konkreten Beispiel von selbstfahrenden Autos muss man natürlich auch sagen, dass das echte selbstfahrende Autos nie üben kann, einen Crash zu haben. Also dieses Crash-Szenario kann natürlich nie geübt werden. Also wir wollen dann natürlich niemanden sterben lassen oder wir wollen nicht so viele Autos crashen. Das ist ein bisschen teuer. Das heißt, Crash-Szenarios werden eigentlich auch immer nur in der Simulation geübt.
Und das ist genau das Problem, dass wir heute zumindest so weit ich das weiß, sehr wenige Szenarien haben, in denen wir sagen können, wenn wir jetzt in der Simulation geübt haben, was für Annahmen übernehmen wir dann in die echte Welt und aufgrund, also die einfach nur benennen zu können, würde uns ja schon helfen, eventuelle Fehler
Szenarien zu vorauszusagen. Aber selbst das Benennen dieser Annahmen, das fällt uns ja selbst schon schwer. Also das ist noch ein weiter Weg. Mikro eins. Ja, auch vielen Dank für den Vortrag.
Die ganze Diskussion über die Weiße, die Herr Priebmann besagt ja letztlich, dass es darum geht, die Wahrheit zu finden, eine Wahrheit und letztlich eine Stichprobe der Wahrheit irgendwie dann dem Computer zum Lernen zu geben. Und das bringt mich dann irgendwie zu der Parallele bei der in der Wissenschaft haben wir das ja auch. Also wie sieht meine Stichprobe aus? Die ideale Stichprobe oder ist da ein Beis drin?
habt ihr diese Parallele irgendwie schon mal gedanklich gezogen oder oder ist das? Ja. Also wir sind ja Wissenschaftler und wir müssen natürlich auch erst mal für uns wissen, ob was wir herausgefunden haben, gerade wenn wir mit Menschen arbeiten, werden ja gestern auch ein Vortrag Science is broken, der da irgendwie also das ist immer sehr schwierig,
die richtige Samplesize zu haben, um die Effektsize zu berücksichtigen, um zu wissen, dass man was weiß. Das sind ja epistemische Fragen. Aber gibt es da irgendwie schon eigentlich für neuronale Netze irgendwelche Richtwerte, dass man dann irgendwie weiß, in der Psychologie lernt man das irgendwie, die Samplesize muss irgendwie mindestens 5000 Blabe dran, keine Ahnung oder so und so.
Gibt es Richtwerte? Gibt es sowas schon für neuronale Netze irgendwie? In Abhängigkeit, keine Ahnung, der Layer oder der Parameter oder? Nicht, dass ich wüsste. Die Frage geht jetzt vielleicht ein bisschen tief für frühe Systeme, also sehr einfache neuronale Netze, die aus den Anfang der 90ern sowie Boltzmann Machines oder
Hoffmann Networks, für solche Sachen kann man sagen, wenn die saturieren und mit wie vielen Bits an Daten man da reingeht, bis sie saturieren. Für aber diese hoch nicht linearen Systeme, die wir jetzt verwenden, kann man das nicht sagen. Das ist auch ein oder nur
asymptotisch sagen. Es gibt viel Forschung zu dem Thema, aber nichts, was man jetzt was besonders handfest wäre, sagen wir mal so, oder man jetzt im echten Leben verwenden könnte. Weil irgendwie dann so eine Aussage zu haben, so und so viele Testdatensamples brauchst du für dein neuronales Netz, wenn das so und so strukturiert ist. Irgendwie das könnte vielleicht
eine Form von Verifikation oder Validierung, Prävalidierung bringen. Irgendwie. Ja, aber das macht man ja. Man hat ja einen großen Datensatz, einen Trainingsdatensatz, einen Testdatensatz und einen Validierungsdatensatz, mit dem man dann noch mal guckt, was haben wir wirklich gelernt und haben wir nicht einfach nur die Eigenheiten des Datensatzes auswendig gelernt, haben wir wirklich generalisiert.
Also auf dem Niveau passiert das schon. Auf dem höheren Niveau wäre das bestimmt noch hervorragende Doktorarbeit. Aber ja. Mikrofünft eine Frage. Ja, vielen Dank für den Vortrag. Meine Frage ist, diese Biases, die sind ja jetzt nicht neu, die kennt man ja seit Dekaden in der Statistik.
Was hat sich denn mit der künstlichen Intelligenz bzw. mit Deep Learning geändert? Und daran anschließend kennt ihr irgendwelche Studien, dass solche Filterblasen wirklich irgendwelche messbaren Auswirkungen haben, weil man hört unglaublich viel in den Medien. Aber mir ist keine belastbare Studie bekannt, die sagt.
dass da tatsächlich was verschlimmert wird, was nicht vorher schon da war. Ich habe die erste Frage schon vergessen. Ich habe die erste auch schon wieder vergessen. Kannst du einmal noch die erste sagen? Die erste Frage war, was sich geändert hat, weil diese Beiß ist, die sind ja jetzt nicht neu. Genau. Nee, die sind natürlich nicht neu. Und die ganzen Vorurteile sind auch nicht neu.
Ich glaube, es wird halt einfach sehr, sehr viel Machine Learning gerade benutzt. Auch aus sehr guten Gründen. Also zum Beispiel, es gibt hervorragende Pfeifenbibliotheken, es gibt hervorragende A-Bibliotheken, die das super einfach machen. Die Unis lernen das fast überall. Data Science ist der große Halbterm. Und es wird einfach nur noch mal drängender, weil Leute diese Sachen jetzt auf einmal in ihre Systeme reinschmeißen,
die benutzen, um vielleicht Geld zu verdienen, sich aber dann dieser Probleme gar nicht bewusst sind. Und zur zweiten Frage, ich bin mir ziemlich sicher, dass es viel zu Echo-Kammern gibt. Ich weiß nicht, was du gefragt hast, ob man das wirklich auch wissenschaftlich so testen kann. Also wieder halt quasi der Versuchsaufbau aus der Ehe. Aber es gibt auch gerade in der Soziologie viel zu Echo-Kammern.
Aber mir fällt gerade kein Autor ein dazu. Also direkt konkret. Vielen Dank für den Vortrag. Ich sehe, dass noch Fragen sind. Aber leider ist die Zeit rum. Seid ihr noch da, können die Leute euch noch ansprechen. Okay. Super. Vielen, vielen Dank.