We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Der Deep Learning Hype

00:00

Formal Metadata

Title
Der Deep Learning Hype
Subtitle
Wie lange kann es so weitergehen?
Title of Series
Number of Parts
254
Author
License
CC Attribution 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Deep Learning ist von einem Dead End zur ultimativen Lösung aller Machine Learning Probleme geworden - und einiger anderer auch. Aber wie gut ist dieser Trend wirklich? Und wie nachhaltig? Wir setzen uns mit wissenschaftlicher Nachhaltigkeit, sozialen Auswirkungen, und den Folgen für unsere Ressourcen, unseren Energieverbrauch, und damit unseren Planeten auseinander. Deep Learning ist von einem Dead End zur ultimativen Lösung aller Machine Learning Probleme geworden. Die Sinnhaftigkeit und die Qualität der Lösung scheinen dabei jedoch immer mehr vom Buzzword Bingo verschluckt zu werden. Ist es sinnvoll, weiterhin auf alle Probleme Deep Learning zu werfen? Wie gut ist sind diese Ansätze wirklich? Was könnte alles passieren, wenn wir so weiter machen? Und können diese Ansätze uns helfen, nachhaltiger zu leben? Oder befeuern sie die Erwärmung des Planetens nur weiter? Wir setzen uns im Detail mit drei Fragestellungen auseinander: 1. Wissenschaftliche Nachhaltigkeit: Wie gut sind die Ergebnisse wirklich? Was können die modernen neuronalen Netze und was können sie nicht? Und vor allem: Wo werden sie eingesetzt und wie sinnvoll ist das? KI Systeme, deren Beschreibung beeindruckend sind, produzieren nicht immer die besten Ergebnisse, und Reproduzierbarkeit, Evaluation, und Reflexion leiden unter Konkurrenzdruck und dem Publikationszyklus. Außerdem, welche Lösungen und Ansätze gehen im Deep Learning Hype unter? Dafür, dass sich so viele Forscher*innen mit dem Thema beschäftigen, zahlen wir damit, dass andere Themen, Ideen und Ansätze ignoriert werden - obwohl sie nützlich sein könnten. 2. Gesellschaftliche Auswirkungen: Was macht das mit unserer Gesellschaft? Insbesondere die Maschinen, die auf irgendeiner Ebene versuchen, Menschen zu imitieren, aber auch viele Anwendungen, die wir alltäglich verwenden, haben einen grundlegenden Einfluss auf uns, der nicht immer ausreichend reflektiert wird. Maschinen können auch diskriminieren, unsere Entscheidungen beeinflussen, uns in falscher Sicherheit wiegen und Aufgaben übernehmen, denen sie überhaupt nicht gewachsen sind. 3. Umwelteinfluss: Welche Ressourcen investieren wir? Rechenzentren, riesige Data Warehouses, Kryptocurrency-Berechnung und Compute Cluster haben einen nicht mehr vernachlässigbaren Einfluss auf unsere endlichen Ressourcen und den CO2-Haushalt, direkt und indirekt. Die Menge an Strom, Zeit, Platz und Material, die wir investieren, sind in den letzten Jahren massiv gewachsen. Wollen wir wirklich so weiter machen?
Keywords
outputRich Text FormatStatisticsArtificial neural networkNichtlineare BerechnungFunction (mathematics)StatisticsSystem identificationSystems <München>BerechnungAlgorithmWeightPlane (geometry)Machine learningPropositional formulaPlanningRepresentational state transferSet (mathematics)Plane (geometry)Scientific modellingBlack boxNumberKanteSpeciesPhysical quantityLevel (video gaming)EckeBilderkennungProfessional network serviceAbstract machineoutputHypercubeComputer animationDiagram
StatisticsoutputOrganic computingFunktionalitätSystems <München>Artificial neural networkInformationArtificial intelligenceSpeech synthesisDistanceDecision theoryFacebookStatisticsBilderkennungInternetInformation retrievalNumerisches GitterPhysical quantityWord processorMultitier architectureTransportHOLDiscrete element methodAlgorithmSearch engine (computing)Computer animation
Graphics processing unitConcurrency (computer science)Array data structureRoute of administrationPAPWeightEuclidean vectorScientific modellingOrder of magnitudeSystems <München>NumberAveragePerspective (visual)Expert systemVorverarbeitungFunction (mathematics)Black boxTime zoneSpeciesMittelungsverfahrenPredictionRow (database)Parameter (computer programming)Denial-of-service attackGrand Unified TheoryComputer animation
CodeManual of StyleCladeSource codeComa BerenicesAlgorithmWorld Wide WebKnowledge extractionMathematical analysisOpen sourcePAPCodeSound effectFocus (optics)Computer hardwareSystems <München>Machine learningSource codeParameter (computer programming)Set (mathematics)Adaptive behaviorPlanningHöheBlitzBasicEmailPhysical lawPlane (geometry)MetreAtomic nucleusFunction (mathematics)HypercubeNumber
Coma BerenicesAlgorithmSource codeForestSun <Marke>FRAMEWORK <Programm>WordNumberPAPMachine learningWalkthroughHypercubeBilderkennungComputing platformBinary filePlane (geometry)Systems <München>PlanningComputer animation
AlgorithmDifferent (Kate Ryan album)Decision theoryMachine learningSoftwareSystems <München>PredictionAlgorithmFactorizationContinuous trackPlot (narrative)Uniqueness quantificationComputer animation
ComputerComputer animation
TransmitterComputer animation
Online chatHighlight <Programm>ImplikationLernendes SystemAutonomes FahrzeugSystems <München>InternetIP addressComputer animation
World Wide WebDew pointmakeSystems <München>Decision theoryComputerPlane (geometry)XMLComputer animation
EnergieCellular automatonGoogleWorld Wide WebComputer programmingSupercomputerServer (computing)Machine learningDatabase transactionScientific modellingTask (computing)GoogleFacebookProcess (computing)Systems <München>Physical quantityForm (programming)Artificial neural networkOutline of industrial organizationPlanningSound effectFamily of setsLebensdauerDirection (geometry)Computer animation
Artificial neural networkSpeciesFactorizationPropositional formulaSystems <München>Context awarenessComputer animation
Context awarenessComputer programmingInformatikerinContext awarenessPlane (geometry)HöheScientific modellingDecision theoryMonster group
Search engine (computing)DatabaseInternetSet (mathematics)Direction (geometry)Route of administrationLightning <Programm>Web pageAutonomes FahrzeugTask (computing)Systems <München>ALT <Programm>Plane (geometry)HöheArtificial intelligenceMoment (mathematics)Computational linguistics8 (number)Arthur <Betriebssystem>Plane (geometry)GoogleComputer animationLecture/Conference
Machine learningSound effectFactorizationProfessional network serviceAbstract machineInternetFile formatArtificial intelligenceSystems <München>TeilsystemPlane (geometry)PAPSemantische ModellierungPhysical quantityDirection (geometry)DepictionVorverarbeitungWordComputer scienceTime zoneDatenerhebungScientific modellingFlock (web browser)Lecture/Conference
openSUSEComputer animation
Transcript: German(auto-generated)
Ich freue mich ganz besonders, jetzt den nächsten Vortrag ankündigen zu können, der zwei Themen vereint, die ich beide interessant finde. Zwar geht es zum einen um Machine Learning, speziellen Deep Learning, aber auch gleichzeitig um Nachhaltigkeit, wie das Ganze verbunden werden kann und ob vielleicht der Deep Learning
Hype irgendwie doch zu groß ist, erklären uns Nadja Geissler und Benjamin Hettas, die an der TU Darmstadt arbeiten und forschen oder irgendwo zwischendrin sind. Und deswegen will ich jetzt gar nicht weiter groß reden und freue mich auf den Talk. Herzlich willkommen, Nadja und Benjamin.
Ja, herzlichen Dank, hallo erst mal und schön, dass wir hier sein können, schon dass ihr alle hier seid. Wir freuen uns wirklich wahnsinnig. Das ist für uns beide auch der erste Congress und das ist was ganz Besonderes dann auch gleich hier oben zu stehen. Genau, ich bin Nadja und wie ihr schon gesagt habt, ich bin mit meinem Masterstudium in der TU Darmstadt fertig und werde wahrscheinlich demnächst dort anfangen zu promovieren.
Ich mache das schon. Benjamin, hallo, seit zwei Jahren und habe festgestellt, ich will mich nicht nur damit beschäftigen, irgendwie toll Deep Learning anzuwenden, sondern auch ein bisschen darüber nachzudenken, was das alles so bedeutet und weil wir da einiges noch rausgefunden haben, sind wir heute hier, um euch das auch zu erzählen. Unser Talk ist so zustande gekommen, dass wir das 36-3-Motto gesehen haben und
Nachhaltigkeit vereint doch eigentlich mehrere Aspekte, die wir schon immer spannend fanden, was das Thema Deep Learning und machinelles Lernen angeht. Aspekte, die sich unter dem Stichwort zusammenfassen lassen, obwohl sie an sich sehr unterschiedlich sind und mit denen wir uns in verschiedener Art schon beschäftigt hatten. Und zu den Aspekten wollen wir euch heute was erzählen, weil gerade das Thema
Nachhaltigkeit momentan besonders aktuell, besonders wichtig und besonders relevant für unsere Zukunft ist. Bevor wir aber auf die drei verschiedenen Ebenen von Nachhaltigkeit, über die wir reden wollen, eingehen, das ist die wissenschaftliche Ebene, die gesellschaftliche Ebene und die Umweltebene, müssen wir ein bisschen zuerst mit euch klären, wovon reden wir eigentlich, wenn wir Deep Learning sagen, was sind so die absoluten Basics für das, über was wir die nächsten 30-45
Minuten reden werden, was müsst ihr wissen, damit wir euch gut mitnehmen können und das wollen wir jetzt machen, das beinhaltet unter anderem, was meinen wir damit, wenn wir Deep Learning sagen, wie funktioniert das auf einer intuitiven Ebene, nicht so sehr auf einer detailreichen technischen Ebene und wozu wird das aktuell jetzt schon angewendet. Und wenn wir Deep Learning sagen, dann meinen wir vor allem dieses Konstrukt,
was sich da neuronales Netz nennt, Artificial Neural Network of English, das sind so Maschinen-Learning-Konstrukte, die es schon sehr lange gibt, die dann zwischendurch mal eine starke Flaute in der Beliebtheit haben, weil sie eben doch nicht die Ergebnisse gebracht haben, wie man sich erhofft hatte und inzwischen sind sie wieder
extrem beliebt, um alle möglichen Probleme, Aufgaben im maschinellen Lernen anzugehen. Dabei bezeichnet ein neuronales Netz im Wesentlichen eine Verknüpfung von Knoten. Diese Knoten können je nach Architektur verschieden miteinander vernetzt und durch verschiedene mathematische Funktionen verbunden sein und jeder Knoten wiederum repräsentiert eigentlich nur eine nicht lineare Berechnungsfunktion. Soweit so logisch.
Wir berechnen also sehr, sehr viel und wenn diese Gewichte zwischen den Berechnungen erstmal fertig bestimmt sind, sprich, wenn das neuronale Netz trainiert ist, dann lässt sich für jede Numerische Eingabe, die man im Netz gibt, auch eine entsprechende Ausgabe bestimmen. Diese Ausgabe macht dann Aussagen über irgendwelche Größen, über irgendwelche Klassifizierungen
oder irgendwelche Zuordnung. Die wichtigste Voraussetzung für viele, wenn auch nicht alle Arten von neuronalen Netzen sind entsprechende Trainingsdaten und die auch noch in großer Menge. Ob diese Trainingsdaten gelabelt sein müssen, also sowas wie schon eine Bezeichnung der eigentlichen Zielgröße haben müssen vorher oder nicht, das kann unterschiedlich sein, ist aber an der Stelle auch gar nicht so relevant. Was wir brauchen, sind
wahrscheinlich sehr, sehr viele Daten, wenn wir mit neuronalen Netzwerken arbeiten wollen. Anhand dieser Daten, die möglichst vielfältig, möglichst repräsentativ sein sollten für die spätere Wirklichkeit oder das, was wir dann damit bearbeiten und einfangen wollen, daran handessen wird das Modell gelernt. Um das Modell später einzusetzen, und das sieht man hier ganz gut, wenn man einmal so von links nach rechts
schaut, braucht man zunächst die Inputdaten, die müssen im numerischen Format sein, wie man dahin kommt, sind sehr viele verschiedene Methoden, aber an der Stelle auch gar nicht so weit relevant. Und diese Inputdaten gehen dann zu diesen Knoten zu den Neuronen und jedes Neuron repräsentiert irgendwo eine bestimmte Eigenschaft, ein bestimmtes Feature. Bei einer Bilderkennung könnte das eine Kante sein oder eine Ecke oder ein Helligkeitsunterschied, ganz
verschiedene Dinge. Je weiter wir in das neuronalen Netz reingehen, je tiefer die Ebenen werden, desto höherlevelig sind die Eigenschaften, die wir repräsentieren. Das Problem bei der ganzen Sache ist normalerweise, dass wir gar nicht so genau wissen, was dieses Neuron repräsentiert. Bei einem Algorithmus, der Bilder klassifiziert, der zum Beispiel Hunde und Wölfe voneinander entscheiden kann, können wir nicht uns einen
Neuron anschauen, können sagen, aha, das hier schaut, ob da eine Kante ist, die einen Schwanz repräsentieren könnte. Sondern es sind einfach für uns nur irgendwelche Zahlenwerte, die wir nicht weiter interpretieren können. Das bedeutet, wir haben Blackbox-Modelle. Wir verstehen also nicht im Detail, welches Gewicht wofür steht, was wir eigentlich gelernt haben. Und im Endeffekt, wenn ein Input reingeht, warum der Output rauskommt, der am Ende tatsächlich
rauskommt. Das bildet also im Prinzip die Basis für alle Systeme, die irgendwie als Teil von Deep Learning bezeichnet werden. Was wir da an der Stelle haben, ist, wir nehmen Mathe, wir nehmen große Mengen von Daten und wenden einfach Tricks aus der Statistik an.
Wir nutzen aus, dass bestimmte Dinge, wenn man das nur oft genug betrachtet, wenn man es nur oft genug anwendet, durchführt, dann eine gewisse Systematik ergeben, dass man Muster erkennen kann. Wir generalisieren. Wie man hier also sieht, werden einfach Tricks übernommen, die es in der
Statistik schon seit 400 Jahren gibt und dafür angewandt, um jetzt irgendwie zu versuchen, aus einem Haufen Daten, ohne ihn wirklich zu verstehen, ohne genau zu wissen, was da drin steckt, einfach durch schiere Masse Muster zu erkennen und dann hoffentlich zu wissen, okay,
wenn ich jetzt weit genug generalisiert habe, wird mein System schon irgendwie gut genug sein für meinen Anwendungszweck. Das hat aber, obwohl der Name ja Deep Learning und künstliche Intelligenz alles das sagt, nicht so wahnsinnig
viel damit zu tun, was wir als Intelligenz verstehen, was wir als Lernen verstehen. Der Tweet hier fasst das ganz gut zusammen. Er sagt, okay, das menschliche Hirn funktioniert ganz anders. Wenn das menschliche Hirn so wie Deep Learning funktionieren würde, dann müssten wir einfach 200 Mal ins Gesicht geschlagen werden, bevor wir überhaupt raffen,
dass wir das nicht mögen. So ist das tatsächlich, wenn ich bei Deep Learning, wenn ich ihm 50, 100, 200 Wölfe zeige und 100 zeige, dann weiß das System noch gar nichts, weil es nicht schnell genug interpretieren kann, nicht genug Kontextinformationen einbeziehen kann, nicht genug von all dem nutzen können, was das menschliche Hirn, was wir können, wenn wir irgendwas machen, um irgendwie
die Entscheidungen zu treffen. Und das ist ein großes Problem. Warum genau, werden wir gleich noch mal im Detail besprechen, sorgt aber dafür, dass wir einfach nur auf Masse gehen und dadurch einfach eine bestimmte Genauigkeit so leicht nicht erreichen können, wie wir sie gerne hätten.
Die intuitive Ursprungsidee hinter neuronalen Netzen war tatsächlich mal sozusagen die Funktionalität des Gehirns nachzubauen. Unsere Neuronen feuern auch, sind auch miteinander vernetzt, können irgendwelche Dinge auslösen, das ist aber heutzutage nicht mehr wie eine neuronale Netze funktionieren. Wir bilden damit nicht wirklich die Funktion organischer Gehirne nach, sondern das war
zwar die Intuition dahinter, das funktioniert aber tatsächlich sehr anders. Der für uns interessante Teil ist aber inzwischen, wie wird das Ganze eigentlich angewendet? Wo begegnet uns das im Alltag nicht nur in Forschungslaborern, nicht nur in akademischen Institutionen, sondern auch tatsächlich in Systemen, die wir jeden Tag benutzen, die inzwischen weit verbreitet sind. Mit allen Nach- und Vorteilen nach
der großen Flaute, von der wir es eben schon kurz hatten, erlebt das Feld gerade wieder ein riesiges Hoch und sie sind in so vielen Bereichen im Einsatz, dass einen kurzen Überweg davon zu verschaffen quasi unmöglich ist. Extrem weit verbreitet sind Sachen wie Sprachassistenten. In den letzten Jahren Siri, Alexa, Echo, all das, die müssen sowas können wie Sprachverarbeitung,
die müssen sowas können wie Textverarbeitung, die müssen Sprachsynthese beherrschen, die müssen auch irgendwo Information Retriever beherrschen und tatsächlich auch die Informationen aus dem riesigen Informationscluster, der das Internet nun mal ist, hervorzuholen. Aber auch weit verbreitet durch solche Unternehmen wie Tesla oder Uber sind inzwischen die Bereiche des
autonomen Fahrts oder generell des autonomen Transports, die sich dann eher mit vielleicht Bilderkennung bearbeiten müssen, mit Navigation, mit Feinkontrolle an motorischen Bauteilen etc. Nicht ganz so offensichtlich, aber dennoch, wenn man drüber nachdenkt oder wenn man es gesagt bekommt, dann doch sehr gut sichtbar, auch für alle Menschen im Alltag, sind die Recommendation Systems sowas wie
Amazon Kundenkaufen auch, sie könnte interessieren, alles was uns irgendwie Vorschläge generiert, die Sortierung von Google Ergebnissen oder generell von Suchmaschinen, wie mir Ergebnisse angezeigt werden, was wie gerankt wird, aber auch sowas wie, was zeigt mir mein Facebook News Feed überhaupt an, wer bekommt was, wann und wie oft zu sehen, das ist bei weitem nicht
so straight forward, nicht so offensichtlich, wie sich das viele Leute denken. Deutlich weniger bekannt sind dann schon Systeme, die sowas wie Rückfälligkeitseinschätzungen für straffällig gewordene machen, die in Gerichtsverfahren dazu verwendet werden, um anhand von irgendwelchen Scores Strafmaße zu vergeben. Das geschieht in den USA schon seit Jahren.
Aber auch Sachen, die anhand von Gesichtserkennung versuchen verdächtige Personen zu identifizieren, oder die Scoring-Algorithmen, die für irgendwelche sozialen Einschätzungen für Versicherungen verwendet werden, aber auch Einstellungsverfahren,
die anhand von Stichwörtern von Lebensläufen, noch bevor jemals jemand auf die Unterlagen drauf geschaut hat, Kandidatinnen aussortieren. Diese Systeme arbeiten auch da wieder so, dass wir häufig nicht verstehen, genau was sie tun, teilweise so, dass man im Nachhinein denkt, um Gottes Willen, wie können die so funktionieren. Das heißt, sowohl diese Einstellung
bei Gesichtsinterpretation oder für Bewerbungsverfahren, wo irgendwie ein 15-sekündiges Video analysiert wird, übernimmt regelmäßig solche Systeme, wie wir messen jetzt Abstand zwischen Augen, Nase, Mund, was weiß ich, was wir leider, wenn man ganz ehrlich ist, erkennen aus irgendwelcher Genetik, die die Nazis betrieben
haben, um irgendwelche überlegenden Rassen zu identifizieren. Und solche Dinge werden in Systeme heutzutage eingesetzt, nicht unbedingt absichtlich, aber wenn man sich die Mühe macht, zu verstehen, was das System eigentlich tut, stellt man plötzlich mit großem Bedauern fest, dass es genau das tut. In all diesen Bereichen, in allen Unteraufgaben
davon, und noch viel mehr, kommen diese Deep Learning Systeme mit allen ihren Nachteilen und oftmals mit unbeabsichtigten Nebenwirkungen aktuell zum Einsatz. Und es werden immer mehr. Genug dazu, was die Grundlage ist, genug dazu, was wir unter Deep Learning verstehen und wo es angewendet wird. Wir wollen uns als nächstes mit wissenschaftlicher Nachhaltigkeit beschäftigen. Und die
erste Frage, die sich die meisten Leute dazu stellen, ist, was bedeutet denn wissenschaftliche Nachhaltigkeit eigentlich? Wenn wir das sagen, meinen wir solche Fragen wie, wie relevant ist eigentlich das Thema, an dem wir forschen? Wie relevant sind meine Ergebnisse für die Zukunft, für die weitere Entwicklung des Feldes, für den Alltag der Menschen, um die es letztendlich geht?
Wir fragen uns aber auch, können wir diese Ergebnisse überhaupt reproduzieren? Kann irgendjemand anderes, wenn er dieses Paper gelesen hat, zu den gleichen Zahlen, zu den gleichen Ergebnissen oder zumindest zu der gleichen Größenordnung kommen? Haben wir die dazu notwendigen Mittel? Haben wir die Details publiziert? Und sind die Ergebnisse so verlässlich, dass es möglich ist?
Wir meinen auch, können wir Dinge, die in der Forschung entwickelt werden, wiederverwenden? Oder sind sie nur für diese eine sehr spezielle Aufgabe relevant? Wir meinen auch, sind wir konkurrenzfähig? Oder sind andere Systeme, die mit dem gleichen oder sogar weniger Aufwand entwickelbar, einsetzbar sind, nicht vielleicht sogar besser? Wir meinen auch, mit welcher Systematik
wurde dieses System gebaut? Nach welchem System wurde untersucht, was an dieser Stelle hilfreich ist und was nicht? Oder war das völlig willkürlich? Und schlussendlich meinen wir auch, was ist die Aussagekraft meiner Ergebnisse? Wie war die Evaluationsmethodik? Was ist dabei am Ende rausgekommen, was tatsächlich relevant, nennenswert, statistisch signifikant ist?
Jo. Und an der Stelle überlegen wir uns kurz, ich weiß nicht, einige von euch kommen sicherlich aus dem wissenschaftlichen Bereich, andere aus der Industrie, ist völlig egal, wie man sich eigentlich wünschen würde, dass Wissenschaft funktioniert. Nämlich irgendwie systematisch
Menschen denken sich Dinge aus, überprüfen sie, stellen fest, sie stimmen und alles ist gut. Tatsächlich haben wir in diesem Bereich häufig, sehr häufig ein völlig anderes Verfahren. Es gibt Publikationen zu irgendwelchen Arten, wie kann man diese Neuronen, die wir vorhin hatten, wie kann man diese Modelle aufbauen? Was kann man da machen, dass die Daten dadurch
fließen? Dazu denken sich Leute was aus, dann publizieren sie das, veröffentlichen das und andere Leute denken sich, okay, das klingt auch spannend, lass das mal nehmen, um daraus jetzt irgendwie für meinen Anwendungsfall ein neues System zu bauen. Das heißt, sie nehmen dieses Modell, was man irgendwo gehört hat, was gerade durch die Fachwelt geistert,
dann überlegt man sich grob, wie baut man das auf? Wie nehme ich das? Ich kann also irgendwie sagen, okay, ich packe jetzt so und so viele Schichten von diesem Typ hintereinander, sagen wir mal, so und so viele und die Schichten machen wir so groß, wir arbeiten jetzt mit so und so viel dimensionalen Vektoren.
Das denkt man sich einfach aus, was irgendwie plausibel klingt. Dann guckt man, dass man die Daten noch irgendwie so lange schlägt, bis sie irgendwie halbwegs in das Format reinpassen, was man gerade haben will, macht da irgendwelche nummerischen Werte draus auf teilweise sehr fragwürdige Art und Weise. Und dann wird das Ganze in das Netzwerk gepackt und das ganze Ding nennt sich ja Deep Learning. Das heißt, jetzt kommt das Lernen.
Das basiert halt darauf, dass man die Daten reinschiebt, guckt, wie gut es passt, wie gut war die Vorhersage, dann anhand dessen das System anpasst, die Daten wieder durchfließen, dessen das Ganze immer und immer wiederholt, bis man am Ende irgendwie schön Gewichte in diesen Funktionen, die man da eigentlich im Prinzip konstruiert,
geraten hat oder gelernt hat, die plausibel erscheinen für den Zweck, den man braucht. Das ergibt dann das Modell. Wenn die Zahlen, die dann rauskommen auf den Daten, den man das testet, ganz gut aussehen, dann nehmen die Leute das und schreiben ihr Paper darüber und sagen, okay, für Klassifikation von Wölfen gegen Hunde
haben wir jetzt folgende Architektur, folgendes Ding, hier sind unsere Daten, das sind die Werte, die wir haben, bitteschön, das ist jetzt das tolle neue Forschungsergebnis. Wenn die Werte nicht so gut aussehen, dann hat man wohl vielleicht dieses falsche State-of-the-Art-System genommen, was gerade irgendwie mal veröffentlicht hat, oder man hat eine Schicht zu wenig, eine Schicht zu viel,
die Vektoren haben die falsche Dimensionierung. Na ja, gut, dann rate ich eben neue Parameter, ist ja alles nur Strom und Zeit, lässt das Ganze weitertrainieren, da laufen die GPUs heiß und dann fängt man von vorne an damit und guckt, ob jetzt gute Zahlen rauskommen und je nachdem
sagt man dann, okay, ich mache weiter oder ich fahre wieder durch. Dazu kommt dann noch, das Ganze ist jetzt ja schon irgendwie ziemlich unwissenschaftlich, das ist eigentlich nicht mal mehr empirische Forschung, das ist wirklich ausprobieren und hoffen, dass was Gutes rauskommt. Aber danach kann man jetzt ja noch
die üblichen Schönungsmethoden anwenden, die es natürlich in der Wissenschaft gibt, die man auch so leicht gar nicht finden kann, leider. Man kann natürlich jetzt sagen, ich zeige nur die Ergebnisse auf den Datensets, bei denen die Zahlen gut aussehen und das auf dem zweiten Datensets mit den Fotos aus einer anderen Perspektive oder mit einem anderen Hintergrund jetzt leider nicht
gut funktioniert hat. Das muss ich ja niemandem erzählen, das veröffentliche ich einfach nicht mit. Das bleibt bei mir und meine anderen Zahlen sehen ja gut aus und das muss mir jetzt erstmal jemand nachmachen und zeigen, dass es mit etwas anderem nicht funktioniert und selbst wenn nicht, ich habe ja eine Publikation und das ist leider in vielen Feldern heutzutage was wichtig ist, irgendwo bei einer wichtigen Konferenz
ein Paper veröffentlichen, mit dem man eine minimale Verbesserung gegenüber von dem bisherigen State of the Art gezeigt hat. Natürlich kann ich außerdem eigentlich sollte ich solche Experimente vermutlich mehrfach wiederholen und Mittelwerte bilden, aber ich kann natürlich Experimente mehrfach wiederholen und einfach nur den besten Score veröffentlichen
und weitere solche Tricks anwenden. Das heißt also wir haben sowieso schon einen schlechten Prozess, der dann auch noch teilweise missbraucht wird, um schneller bessere Ergebnisse zu kriegen und das dann zu publizieren. Und das ist das, was wir viel in diesen Feldern sehen. Definitiv
nicht bei allen Papern, gerade die Grundlagen Paper sind sicherlich gut beforscht, aber die vielen Anwendungspaper können an der Stelle und allein schon in dem, wie sie entstanden sind, begründet keinen wirklichen Mehrwert liefern, was ihre Relevanz und ihren Vorteil, der daraus entsteht,
ergibt. Das Ganze ist natürlich plakativ formuliert. Und natürlich bringen wir das Ganze ein bisschen auf den Punkt, um es zu überspitzen. Aber Tatsache ist, wenn man sich in einem Feld bewegt, was sehr viel Druck hat, wenn man sich in einem Feld bewegt, was so viele mögliche Gründe und so viele Dinge hat, die diese Fallstrecke begünstigen, dann werden sie auch immer mehr genutzt.
Genau. Wir sehen natürlich besonders, es gibt gerade im Deep Learning diese Möglichkeiten, denn wir haben schon gesagt, wir verstehen nicht, was diese Modelle tun normalerweise. Es gibt ein Forschungsfeld, was daran arbeitet, aber normalerweise verstehen wir nicht, was diese Systeme tun. Das sind Blackbox-Modelle,
die kriegen Daten rein. Damit wird irgendwas gemacht, am Ende kommen Daten raus. Das Ganze geht noch über mehrere Schritte. Wir haben die Daten, die werden irgendwie vorverarbeitet, dann kommen die Daten rein, gehen durch dieses System, dann werden sie nachverarbeitet, am Ende muss noch evaluiert werden, entschieden werden, was ist jetzt richtig,
was ist exakt richtig, was ist gerade so richtig, reicht mir das vielleicht, um es als Stimmte schon so in meinem Paper zu publizieren. Was ich genau gemessen habe, wird häufig gar nicht erst angegeben. Das heißt, dort ist es extrem leicht möglich, auf diese Art und Weise zu arbeiten. Und gerade dadurch, dass
überall heutzutage ExpertInnen für dieses Feld gesucht werden, dass das überall jemand Anwendungen haben möchte, für Deep Learning, kommt man damit eben ganz gut durch. Deswegen passiert das dort besonders. Man muss auf der anderen Seite, wenn man eben die guten Jobs kriegen will, auch solche Publikationen vorweisen, also wird das entsprechend gemacht.
Und genauso, es sind halt sehr viele Low Hanging Fruits dabei. Das heißt, Dinge, wo man weiß, okay, mit wenig eigenen großartigen Ideen und mehr Anwendung und Handwerkszeug kann ich irgendwo was bauen, was es noch nicht gibt. Und solange ich der Erste dazu bin,
kriege ich das leichter hin. Ich muss mich nicht mit irgendwie vergleichen. Ich zeige, okay, mein System kann das, mit einer akzeptablen Genauigkeit, akzeptablen Ergebnissen. Damit bin ich die erste Person, die das geschafft hat und kann das entsprechend veröffentlichen. Deswegen versuchen halt möglichst viele Leute, möglichst schnell solche Dinge rauszuhauen, neue
Publikationen in diesen Bereichen zu veröffentlichen. Wenn wir jetzt wissen wollen, wie gut eigentlich ein System ist, was vorgestellt wird, wäre es natürlich schön, wenn wir die Experimente einfach wiederholen könnten. Das ist allerdings leider gar nicht so trivial,
denn auch wenn die Systeme, die eingesetzt werden, die Grundlagensysteme, häufig ein gewisser Standard sind und irgendwie auch als Open Source existieren, gilt das eben nicht für die ganzen Anpassungen und die ganzen Details, die die Personen einbauen. Das gilt also nicht für den eigentlichen Code,
für die Pipeline, aber auch für die Pre-Processing, für die Evaluierung. Das gilt nicht unbedingt für die Daten. Häufig sind Daten nicht verfügbar. Wir wissen, Daten sind wertvoll, deswegen will man sie nicht aus der Hand geben. Aber so funktioniert Wissenschaft nicht. Ich kann nicht auf meine Daten, die ich für mich behalte, arbeiten, sie niemanden
zeigen und sagen, aber mein System ist gut, ich habe es ja selbst getestet. Dass ihr es jetzt nicht überprüfen könnt, Pech gehabt. Ich habe in diesen Systemen enorm viele Hyperparameter, die, wir haben es ja gesagt, erst mal häufig geraten werden oder halt durch grobes Ausprobieren bestimmt werden.
Wenn ich diese Parameter und diese Hyperparameter nicht weiß, habe ich keine Chance, das System nachzubauen. Ich weiß auch nicht, mit welchen Intensierungen die zufällig geschehen ist, mit welchen Reihenfolgen und Aufteilung der Daten das Ganze geschehen ist. Das heißt, wenn ich diese ganzen Details nicht habe, habe ich erst mal keine Chance, genau ein System nachzubauen.
Ich brauche aber genau diese exakten Werte, weil diese Systeme enorm fragil sind. Das heißt, wenn ich Kleinigkeiten ändere, ein bisschen die Dimensionen verändere, die Größe der Schichten, gar sogar die Funktionen, die da aneinander gekettet werden, ein bisschen ändere, kriege ich völlig andere Ergebnisse. Und weiß nicht mehr, ob das andere System wirklich schlecht oder gut war,
oder ob es eben nur daran liegt, dass ich es nicht genau nachbauen kann. Problem, aktuell gibt es zwar Bestrebungen, dass sowas besser wird, aber keinen Zwang oder so dafür. Das heißt, wenn ich ein Paper publiziere auf einer der großen Konferenzen in meinem Anwendungsgebiet oder
auch im Kern- Machine-Learning-Bereich, dann ist es gewünscht, dass sie reproduzierbar sind. Es ist aber nicht erzwungen. Das heißt, es gibt zusätzlich noch mal das, ich möchte, dass mein Paper so einen Siegel kriegt, dass es reproduzierbar, dann muss ich dafür ein paar Dinge machen, dann muss ich im Prinzip diese Dinge hier bereitstellen, die wir aufgelistet
haben, und dann versuchen andere Leute nachzuvollziehen, ob das, was ich mache, auch stimmt, und dann kriege ich halt so ein Häkchen. Aber wenn ich das nicht tue, dann mache ich es eben nicht. Und das ist sicherlich eine Stelle, die man hinterfragen muss, wo auch zum Glück schon Dinge geschehen, also diese Reproduzierbarkeit wird,
rückt mehr in den Fokus der Konferenzen. Der Effekt von dem Ganzen ist natürlich dadurch, wir haben ganz viel Forschung, die nicht genutzt werden kann von anderen Leuten, das heißt, ich muss natürlich Forschung an der Stelle wiederholen, andere Leute müssen wiederholen. Und zusätzlich,
sowohl durch diesen Effekt als auch durch den Drang, möglichst viel und möglichst schnell zu publizieren, wird halt extrem viel Forschung auch so wiederholt und an ähnlichen Problemen immer wieder gearbeitet, um minimale Verbesserungen zu bekommen, weil man ja auch schon sagt, nein, mein System ist 0,5 Prozentpunkte besser, als das bisherige State of the Art System wieder publizieren kann.
Das heißt, wünschenswert wäre es, wir hätten überall diese Reproduzierbarkeit, das wichtigste wäre natürlich wir alle, immer wenn wir hier sitzen und wenn wir irgendwas erforschen, wir müssen unseren Source Code veröffentlichen. Guck mal da, ein Eichhörnchen.
Das ist leider was, was viel zu häufig passiert, wenn es zum wissenschaftlichen Code geht. Das heißt, selbst die AutorInnen, die vorhatten, ihren Code zu publizieren, das Ganze öffentlich zu machen, Open Source zu machen, werden viel zu schnell vom nächsten Projekt, von der größeren Deadline, von den beschäftigten DoktorandInnen oder von der Tatsache, dass der Code immer noch nicht aufgeräumt ist, wenn man einfach echt nicht dazu gekommen
ist vor der Deadline abgelenkt. Wir haben einen extrem hohen Publikationsdruck im Bereich Deep Learning, die Publikationen steigen effektiv exponentiell. Man muss immer schneller sein, um wirklich noch State of the Art zu sein, um selbst die eigene Verbesserung noch an den Markt bringen zu können. Das sorgt dafür, dass irgendwo unsauber gearbeitet wird. Mein Code wird nicht dokumentiert, er wird als Spaghetti Code geschrieben, er wird irgendwie hingehackt. Hauptsache,
es funktioniert bis zur Deadline. Und danach müsste ich mich hinsetzen und das Ganze wieder aufarbeiten. Und das ist ein Riesenstück Arbeit und eigentlich steht ja schon die nächste Publikation an. Und alles ist plötzlich interessanter, als den Code zugänglich zu machen. Das gilt wieder nicht für alle Paper. Natürlich gibt es Leute, die das machen. Wir versuchen es zum Beispiel auch. Aber es funktioniert leider immer noch viel zu selten.
Tatsächlich gab es dazu mal, oder gibt es noch immer noch, von einer großen Konferenz in dem Bereich die Reproducibility Challenge, wo im Wesentlichen WissenschaftlerInnen aufgefordert werden, sich ein akzeptiertes Paper aus der Konferenz 2018 oder jetzt an der Konferenz 2019 rauszusuchen und mit allen Mitteln und Wegen zu versuchen, die Ergebnisse nachzuvollziehen. Teilweise oder im Detail komplett.
Erst mal rausfinden, was kann ich überhaupt. Die Autorinnen sind angehalten, den Code zu publizieren und zu kooperieren. Und die Leute versuchen wirklich noch mit Zeitaufwand, mit dem entsprechenden Fachwissen, die Ergebnisse nachvollziehbar und erklärbar und reproduzierbar zu machen. Die Erfolgsrate, ja, einen Teil können wir nachvollziehen. Immerhin 50 Prozent.
Immerhin ein Großteil des nachvollziehbaren Konten, 30 Prozent. Gar nicht reproduzieren, waren aber immer noch 10 Prozent. Jetzt ist es interessanter bei der Schwierigkeitsgrad. Dass man es irgendwie reproduzieren kann, ist an sich schon mal gut. Aber noch nicht ausreichend. Wenn ich die komplette Forschung dafür neu machen muss, dann lohnt es den Aufwand schlechtern einfach nicht.
Reasonable difficulty ist in dem Fall, sagen wir, ein nicht sehr konkretes Wort. Aber Tatsache ist, dass es bei mindestens 20 Prozent der Paper sehr, sehr schwierig war. Und überhaupt keine Probleme aufgetreten sind bei einem absolut vernachlässigbaren Teil. Was sie dabei noch gemacht haben, ist, sie haben gefragt, diese WissenschaftlerInnen, denen diese Challenge gestellt wurde,
haben wir momentan eine reproducibility crisis im Bereich Machine Learning. Seht ihr ein Problem? Und die Anzahl der Leute, die ein Problem sehen, ist über diese Challenge um doch diverse Prozentpunkte gestiegen. Das heißt, einfach mal es selbst zu versuchen, hat noch mal 15 Prozentpunkte mehr der befragten WissenschaftlerInnen ungefähr
davon überzeugt, dass tatsächlich ein Problem existiert und dazu geführt, dass drei Viertel der befragten WissenschaftlerInnen ein Problem sehen, in unterschiedlichem Ausmaße. Noch ein Beispiel, das ist jetzt, es gibt tatsächlich inzwischen Paper, die sich damit beschäftigen, wie gut
andere Paper reproduzierbar sind. In dem Fall, aus dem Bereich von Recommendation, also es geht darum, aus einer Menge von Dokumenten, bestimmte Dokumente für eine Anfrage oder Frage, oder was ist ich, vorzuschlagen. Da gab es in den letzten Jahren 18 Publikationen, die alle auf Deep Learning setzen bei großen
Konferenzen. Und dann haben sich die Leute mal hingesetzt und geguckt, wie viel können wir davon reproduzieren, inklusive wir schicken erstmal den Autor in eine E-Mail, ob sie uns vielleicht ihren Code geben können, bitten noch mal nach und versuchen die Sachen zu laufen zu bringen, versuchen teilweise ähnliche Hardware zu beschaffen, wie die verwendet haben
und bauen das nach. Und insgesamt haben sie für dieses Beispiel von diesen 18 Paper ganze sieben Paper wirklich reproduzieren können. Das heißt, bei denen können sie die ganzen Sachen nachbauen, können es laufen lassen und kommen dann auf ähnliche Ergebnisse. Aber wichtig, erst nachdem sie die Arbeit investiert haben, erst nachdem sie nachgefragt haben,
erst nachdem sie versucht haben, die Dinge aufzutreiben, die nicht von sich aus rausgegeben wurden. Und das ist nicht der Standardprozess. Also normalerweise, wenn ich irgendwo auf eine Konferenz einen Paper schicke und sage, ok, das möchte ich veröffentlichen, dann lesen Leute nur dieses Paper. Gucken sie sich eventuell noch ein Video oder vielleicht sogar ganz zusätzliche Datensätze, die hochgeladen werden.
Aber normalerweise lesen sie nur dieses Paper, diese sechs, acht, zehn, manchmal zwölf Seiten mit eng geschriebenen Ergebnissen. Und entscheiden nur anhand des Texts, der dort dann steht und anhand der Zahlen, die die Autorinnen selbst rausgegeben haben, ob diese Arbeit relevant, richtig und irgendwie nutzbar erscheint.
Und dann wird entschieden, ob sie veröffentlicht wird oder nicht. Aber sie können normalerweise nicht in irgendeiner Form überprüfen, ob das wirklich so ist. Sie müssen komplett auf den Text vertrauen. Das ist der Standardfall, wenn wir nicht explizit Reproduzierbarkeit fordern für irgendwelche Konferenzen.
Und wie gesagt, die bisherigen großen Konferenzen, es gibt keine von den angewandten Konferenzen, die Reproduzierbarkeit explizit fordert. Es ist immer nur ein zusätzliches, eine Challenge oder ein zusätzliches Siegel oder was weiß ich. Aber bisher basiert die Annahme und die Veröffentlichung von irgendwelchen Papern
komplett nur auf dem Reviewen von den eingeweichten Sachen, ohne dem Versuch, es auch zu reproduzieren. Noch zu dem Beispiel, um es noch demotivierender zu machen, von diesen sieben Ergebnissen, die sie reproduzieren konnten, haben sie dann außerdem noch mal nicht deep learning-basierte
Ansätze genommen, die damit verglichen und festgestellt, dass wenn man da sich ein bisschen Mühe gibt, sie von sechs von diesen sieben Papern trotzdem noch bessere Ergebnisse kriegen. Das heißt, von diesen 18 Publikationen hat eine für externe Leute messbaren wissenschaftlichen
Fortschritt gebracht. Und genau diese anderen Ansätze sind nämlich leider etwas, was sehr stark durch diesen Hype, der ja offensichtlich funktioniert, so voll, wie es ja heute ist, das Wort deep learning zieht, werden die verdrängt. Der Rest sind häufig
nur Baselines. Ich muss ja nur im Paper irgendwas angeben, dass es ein anderes System ist, mit dem ich es vergleiche, damit ich zeige, dass mein neues System besser ist, als das, was bisher da ist. Dann gebe ich mir natürlich auch keine Mühe, dass ich diesen Anteil, dieses andere System besonders gut dastehen lasse, denn dann ist es schwieriger, dass mein neues System besser abschneidet.
Das heißt, es wird hauptsächlich eben an diesen deep learning Krams geforscht und alles andere wird vernachlässigt, obwohl man da noch sehr viel rausholen könnte, wenn man es denn wollte und irgendeinen Vorteil davon hätte. Und es wird wirklich alles andere nur als Baseline betrachtet. Ganz kurz noch,
das ist Foundation Talk, Baseline, ich brauche irgendein System, mit dem ich zeige, dass meine Saaten valide sind, dass das irgendwie plausibel ist, was ich rauskriege. Im simpelsten Fall ist ein Baseline-Einsatz für eine binaire Entscheidung einfach ein Münzwurf. Wenn ich ein System baue, was zwischen Hund oder Wolf entscheiden muss, und es hat nur 5% Genauigkeit, dann hätte ich mal lieber eine Münze geworfen,
dann würde ich nämlich wohl die 50% Genauigkeit kriegen, dann ist mein System also außerordentlich schlecht. Sobald ich über diese 50% drüber komme, über diese Baseline, kann ich in diesem Paper inhaltlich begründen, warum mein neues System besser ist, als diese Baseline. Nun gäbe es aber vielleicht bessere, klügere Ansätze als einen reinen Münzwurf, aber wenn ich den halt möglichst low halte, habe ich es an der anderen Stelle leichter.
Dazu ganz kurz, um das zum Zahlen zu fassen, Kaggle ist eine Plattform, die datenwissenschaftliche Challenges stellt, an der jeder dann mitarbeiten kann und einen Versuch einreißen kann, diese Challenge zu schlagen, zum Beispiel im Bereich Bilderkennung, aber eigentlich alles, was datenwissenschaftliches oder maschinelles Lernen in Worte fasst. Das ist der Unterschied zur akademischen Forschung, dass wir uns nicht so sehr
im State of the Art orientieren, sondern die Leute versuchen, oftmals sind es auch Privatpersonen, das zu nehmen, was funktioniert. Da ist auch viel Deep Learning dabei, weil Deep Learning immer Sachen sind, an denen viel entwickelt wird, wo es viele fertige Frameworks gibt und was verrufen ist als das, was irgendwie mit allem funktioniert, unter gewissen Voraussetzungen. Aber trotzdem sehen wir, dass auch klassischere Ansätze
hier einen sehr, sehr hohen Anteil einnehmen, einen höheren Anteil, als manchmal bei entsprechenden Konferenzen zu finden ist. Das heißt, wenn es mir nur darum geht, dass jetzt etwas funktioniert und ich nicht maximalen Aufwand reinstecken will, ich nicht unbedingt die Basisworts unterbringen will, ist Deep Learning plötzlich nicht mehr ganz so beliebt. Und dafür gibt es mit Sicherheit einen Grund. Wir wollen aber noch zu
zwei weiteren Aspekten kommen und der nächste ist der der gesellschaftlichen Auswirkungen. Weil auch was unsere Gesamtgesellschaft betrifft, müssen wir in der Forschung, was das Maschinellernen und das Deep Learning angeht, ein bisschen auf Nachhaltigkeit achten. Gerade das Thema Erklärbarkeit und Transparenz. Das Thema kann nicht das System, was vielleicht sogar lebenswichtige Entscheidungen trifft, irgendwie verstehen.
Dieses inzwischen relativ weit verbreitete Beispiel kommt aus der Software Compass. Ich habe es vorhin schon erwähnt. Die wird verwendet, um bei straffällig gewonnen Menschen in Gerichtsverfahren einen Score zu ermitteln, mit welcher Wahrscheinlichkeit sie rückfällig werden im weiteren Verlauf ihres Lebens. Und dieser Score wird von RichterInnen dann verwendet, um das Strafmaß zu bestimmen. Wenn wir uns jetzt
den Hintergrund der Hautfarbe dieser Menschen anschauen, für die diese Scores bestimmt wurden, erkennen wir eine sehr unterschiedliche Verteilung zwischen Menschen mit weißer Hautfarbe und Menschen mit anderer Hautfarbe. Das heißt, oben links sehen wir, dass hohe und niedrige Scores annähernd gleichmäßig verteilt werden, während wir eben bei Menschen mit eindeutig
weißer Hautfarbe oder die so wahrgenommen werden, eine sehr starke Häufigung bei niedrigen Scores haben. Das hat sich aber in vielen Einzelbeispielen inzwischen gezeigt, dass das schlicht und einfach falsch ist, dass für ähnliche Verbrechen sehr unterschiedliche Strafen vergeben wurden und das nicht der Fall ist, dass die Person mit dem höheren Score auch zwangsläufig eher rückfällig geworden ist. In einigen Fällen haben auch Menschen,
die in dem Bereich tätig sind, draufgeschaut und haben gesagt, eigentlich hätte ich anhand der Vorstreifen das grade andersrum verteilt. Und das ist ein Riesenproblem, weil das Systeme, die hier aktuell zum Einsatz kommen und die für Menschen lebenswichtige Entscheidungen treffen müssen. Für niemanden ist ersichtlich, warum dieser Score so gegeben wird. Die Firma sagt von sich, und das ist insofern auch korrekt, wenn man das wörtlich nimmt, dass der Hintergrund und die Hautfarbe
dieser Menschen nicht eingegangen ist in das Training. Aber das korreliert mit so vielen Dingen in den USA, mit dem Einkommen, mit dem Wohnort etc., dass das gar nicht der entscheidende Faktor ist. Als weiteres Beispiel können wir mal drüber nachdenken, was wir denn mit dem Begriff eindeutig Handlungsvorschrift meinen. Viele Menschen bezeichnen damit Algorithmen.
Was sie damit nicht bezeichnen wollen, ist, dass wir alles, was algorithmische Systeme uns vorschlagen, auch als Handlungsvorschrift zu behandeln haben. Das ist nicht, wie wir das gemeint haben. Sondern wir müssen mit diesem System immer reflektiert und kritisierend umgehen. Ob jetzt Deep Learning überhaupt noch auf diesen Begriff passt, auf diese eindeutige Handlungsvorschrift,
ist schon wieder extrem fragwürdig. Denn wir reden hier von sehr stark statistisch geprägten Systemen, wo sehr viel Zufall mitspielt. Und man könnte sie, wie es in diesem Tweet gesteht, das vielleicht eher als maschinelles Bauchgefühl bezeichnen, als das eindeutige Handlungsvorschrift. Das heißt, was wir hier eigentlich erleben, ist eine wahnsinnige Generalisierung nur.
Wir nehmen Datenpunkte aus der Vergangenheit, die wir schon kennen. Wir wenden sie an. Wir trainieren darauf. Und danach versuchen wir einfach und hoffen, dass, wenn wir diese Sachen, die wir haben, wenn wir die nur weit genug generalisieren, wenn wir irgendwo versuchen, auf Teufel kommen raus. Und das System muss immer
was liefern. Normal liefern die System immer einfach ein Ergebnis, egal, ob sie einen guten Grund dafür sehen oder nicht. Sie versuchen einfach ein Muster zu finden und dann liefern sie ein Ergebnis. Und das bedeutet, dass das, was immer landläufig als die KI sagt, etwas vorher oder denkt sich etwas aus oder was weiß ich, im Prinzip
nur ein auswendig lernen und generalisieren und das Ergebnis irgendwie wieder raushauen ist. Bei gelernten Systemen reden wir oft von Prediction oder Vorhersage. Was wir aber eigentlich getan haben, ist nicht über die Zukunft nachzudenken, sondern ausschließlich über die Vergangenheit. Und dann ist es die interessante Frage, ob wir wirklich Dinge vorhersagen oder eigentlich nur reproduzieren.
Das Problem ist aber auch, dass die Menschen den Computern vertrauen. Das trifft vermutlich jetzt nicht auf alle Leute hier im Raum zu. Das ist sehr angenehm. Aber in der Gesellschaft ist das enorm verbreitet dazwischen. KI ist irgendwas Tolles. KI ist super. KI wird uns retten.
KI kann das, was wir nicht können. Beispiele. Wir haben diese große Forschungsinitiative. Überall muss KI gemacht werden. Wenn ich KI in meine Anträge schreibe, kriege ich Geld. Wenn ich auf meine Hautcreme draufschreibe, dass sie mit KI optimiert wurde, kann ich sie besser verkaufen. Und wenn ich will, dass mein System und ich als Firma
gut dastehe, dann kann es sich sogar lohnen, was geschieht, was Google, aber auch viele andere machen, kann es sich lohnen, Leute einzustellen, die so tun, als wären sie Computer zum Beispiel, die irgendwo anrufen, weil der Computer dazu eigentlich noch nicht in der Lage ist und dann die Restaurantreservierung oder was weiß ich durchführen, nur damit man dann am Ende
rausschreiben kann, dass die eigenen KI-Systeme so wahnsinnig toll sind. weil es ja kein Mensch ist, sondern der Computer, der ja bestimmt viel weiser sein muss, kann man dadurch sich Geschäftsvorteile verschaffen. Ein ganz besonders beunruhigendes Beispiel haben wir uns außerdem noch mitgebracht.
Die Frage direkt vorweg zu nehmen,
ja, das gibt es wirklich. Und ich hoffe ehrlich gesagt, ich muss gar nicht erklären, warum das so unglaublich kritisch ist, aber ich frag einfach mal, was passiert mit uns Menschen, so rein soziologisch, so rein psychologisch, wenn wir mit Maschinen interagieren, als wären sie Menschen, als hätten sie Gefühle, wenn sie Muster imitieren,
wie sie in der Beziehung und in zwischenmenschlicher Kommunikation stattfinden. Was passiert da mit uns, worauf lassen wir uns ein, wie viel Bias, den wir nicht haben sollten, akzeptieren wir. Um noch zu einem ganz anderen Thema zu kommen und ich hoffe, dass wir das nur ganz kurz anschneiden, denn ich habe keine Antwort auf die Frage, die ich gerade gestellt habe, Daten. Und ich glaube,
das ist ein Rahmen, in dem ich wenig erklären muss, warum Datensparsamkeit wichtig ist. Wir haben aber mit Deep Learning ein fundamentales Problem, wir brauchen nämlich extrem viele Daten. Und das beißt sich ganz, ganz stark mit unseren gesellschaftlichen Adressen. Das ist aber ein Thema, über das könnte man mindestens eine eigene Talk halten. Außerdem Beispiele wie das, viele werden das auch schon
gesehen haben, eine KI, die sich gefühlte 15 Minuten im Netz bewegt hat und plötzlich überaus rassistische und anderweitig inakzeptable Äußerungen gebracht hat, weil sie nun mal aus dem Internet gelernt hat. Und die interessante Frage stellt sich an der Stelle ganz krass, ob wir wirklich versuchen, mit maschinellen Systemen Menschen nachzubilden oder ist das vielleicht eine sehr schlechte Idee?
Ein weiterer Punkt, den wir uns stellen müssen, der für uns alle relevant ist, denn wir arbeiten in irgendeiner Form an Systemen, die irgendwie ja was in der Welt bewegen sollen. Wer ist für all das verantwortlich? Ganz typisches Beispiel haben wir bei den autonomen Fahrzeugen,
da wird es schon x-mal diskutiert. Wer ist dafür verantwortlich, wenn ein Unfall passiert? Aber bei jedem weiteren System gilt das auch. Es gibt so viele Stellen, die daran beteiligt sind. Wir haben die Personen, die das Ganze programmieren, die Personen, die es in Auftrag gegeben haben, die Firma, die das Ganze kauft, vermarktet, vielleicht öffentliche Stellen,
die entsprechende Regularien dafür veröffentlichen. Wir haben Versicherungskonzerne, wir haben Privatpersonen, die ein autonomes Fahrzeug oder irgendein anderes intelligentes System besitzen. Wer ist schuld? Wer kann belangt werden, wenn irgendwas passiert? Und welche Auswirkungen hat das? Denn je nachdem, wer dafür belangt werden kann,
ergeben sich völlig unterschiedliche Entscheidungen von den beteiligten Personen, wogegen sie ihre Systeme absichern, wie sie ihre Systeme designen. Und diesen Punkt, dazu gibt es keine befriedigende Antwort. Eine Umfrage unter den Amerikanerinnen sagt, dass die Mehrheit das
inakzeptabel findet, dass ein Computersystem oder algorithmische Systeme genutzt werden, um in bestimmten Bereichen, zum Beispiel bei der Einschätzung von Strafmaßen oder für den Bewerbungsprozess von Menschen, dass der Computer wesentlich Entscheidungen dafür trifft. Blöd nur,
all das wird heutzutage schon gemacht. Und zwar eben mit immer stärker werdendem Ausmaß. Und als drittes kommen wir jetzt zu einem Punkt, der oft vernachlässigt wird, wenn es um Deep Learning geht. Ja, das werden wir alle, die wir auch heute gesagt haben, aber der ganz besonders. Und wir glauben, dass der trotzdem relevant ist. Nämlich gerade zu Zeiten, wo das Thema
Klimawandel wieder mehr in den Medien kommt, wo sowohl die Gegner als auch die Befürworter von irgendwelchen Maßnahmen stärker werden, ist das ein Thema, bei das wir auch nachdenken müssen. Auch wenn es auf den ersten Blick nicht mit unserer Arbeit zu tun hat. Wir haben natürlich, bekannt ist das im Bereich zum Beispiel von den Digital Currencies, dass die enormen Stromverbrauch haben.
Zum Beispiel eben eine Bitcoin Transaktion verbraucht ungefähr so viel Strom wie 500.000 Visa Transaktionen. Eine einzige. Und das entspricht ungefähr dem Stromverbrauch eines Kühlschranks für acht Jahre. Für eine Transaktion. Aber Bitcoins ist nicht der einzige
Bereich, wo wir Probleme kriegen in der Hinsicht, wir haben auch das generell in allen Formen, wo wir große Daten haben. Deep Learning braucht große Datenmengen. Datenmengen müssen wir speichern, verarbeiten, transportieren. Und dafür haben wir weltweit inzwischen eine relativ
großsteigende Anzahl an Rechenzentren, die zwischen 200 und 500 Milliarden Kilowattstunden pro Jahr gerade verbrauchen. Ganz genau kann man das natürlich nicht sagen, weil die Firmen auch diese Daten als Geheimnis betrachten. Wenn man alle Rechenzentren zusammen als Land betrachten würde, hätten wir fünf Länder auf der Erde, die mehr Strom verbrauchen, dann kommen die Rechenzentren, dann
kommen alle anderen Länder. Und auch das wird weiterhin steigen. Wir haben, wenn man jetzt noch kleiner guckt, auf das, was wir beschrieben haben, den Trainingsprozess von einzelnen Modellen, auch da schon einen erschreckend hohen Stromverbrauch,
der auch dort leider nicht linear, sondern deutlich darüber ansteigt. Wenn wir also einzelne Modelle trainieren wollen, sehen wir, dass die großen State-of-the-art-Systeme, die dann natürlich von Firmen wie Google und Facebook AI
und anderen Forschungsinstituten, Einrichtungen von großen Firmen vorgeschlagen werden, dass dort Strom verbraucht wird für Hunderttausende, teilweise Millionen an Euro, dass dort auch inzwischen natürlich zusätzlich noch
GPOs, TPUs eingesetzt werden, die schwer zu bekommen sind, die teuer anzuschaffen sind, sodass wir natürlich auch sowohl durch den Stromverbrauch als auch durch die Infrastruktur erstens, also erstens haben wir diesen Umwelteffekt, zweitens haben wir den Effekt, dass immer weniger Firmen, immer weniger große Einrichtungen
in der Lage sind, Deep Learning auf dem State-of-the-art durchzuführen, der Rest wird abgehängt. Das heißt, auch da gesellschaftliche Auswirkungen problematisch, Umweltauswirkungen problematisch und leider ein Trend, der offensichtlich genau in die falsche Richtung geht. Wenn man sich das nochmal hier
anguckt, was das auch für den CO2- Ausstoß bedeutet, sehen wir, dass das Training von einem einzigen Modell, wie es dann veröffentlicht wird am Ende, von so einem großen Modell, ungefähr so viel CO2 ausstößt, wie fünf Autos in ihrer ganzen Lebensdauer, inklusive Produktion und
inklusive sämtlichen Sprit, der dann darin verbrannt wird. Und solche Forschung findet ständig weiterhin statt, weil man ja weiter publizieren soll, wie wir am Anfang schon erzählt haben. Das heißt, dauerhaft werden solche Modelle gerade auf der Welt trainiert, um dann irgendwo in irgendeinem kleinen Teilbereich eine neue Publikation machen zu können. Und jetzt komme ich und bringe die frohe Botschaft.
Nein, im Ernst, es ist nicht alles ganz so schlimm, wie es jetzt gerade scheint, wenn wir die Nachteile auflisten. Tatsächlich kann der ganze Bereich des maschinellen Lernens auch Vorteile mit sich bringen und hier in diesem Beispiel sogar auch tatsächlich das Deep Learning. Es geht darum, dass Google über Jahre hinweg versucht hatte, mit Hilfe von maschinellem Lernen die Liebe ihrer Datenzentren zu optimieren,
da auch eine Einsparung im Stromverbrauch zu erreichen. Wir reden hier von reinforcement learning, für die, von denen das sagt, was eben die Kühlungssteuerung, die Abschaltung von Servern etc. beeinflussen konnte und damit den Stromverbrauch bis zu 40% gesenkt hat. Das ist auf jeden Fall eine gute Nachricht. Natürlich ist auch mir die Ironie klar, dass wir hier von dem Stromvertrag von Datenzentren sprechen, die vielleicht ohne das Feld auch einfach gar nicht so
sehr nötig wären. Trotzdem, man kann diese Wissenschaft, man kann diese Technik aus für gute und für nützliche Sachen nutzen, die uns allen was helfen können. Das lässt sich natürlich nicht auf alle großen Strom- und CO2- Produzenten übertragen, die wir in unserer Industrie so haben. In der Autoindustrie wird das zum Beispiel schon sehr viel schwieriger, wenn wir
von Montageprozessen reden, wenn wir von Produktionsprozessen reden. Da kann man nicht einfach wild durch die Gegend tauschen, welcher Task man ausgeführt wird, den sammeln und nach zum Drei machen, wenn die Server vielleicht nicht ausgelastet sind oder sie nicht direkt ausführen, damit der Server nochmal abgeschaltet bleiben kann. Aber trotzdem ist das was, mit was wir uns auf jeden Fall beschäftigen sollten. Mit Strom und CO2 ist das Lied um die Umweltauswirkung
aber noch nicht zu Ende. Es geht auch darum, wie wir unsere Infrastruktur belasten, wie wir Straßen, Städte, Gebäude und so weiter beanspruchen für den Bau, für den Betrieb, für den Transport, für die Vernetzung von den ganzen Systemen, die wir für diesen Forschungsfeld brauchen. Es geht darum, was wir für Platz beanspruchen, mit Forschungszentren, mit Datenzentren, mit Supercomputern und GPU-Produktionen. Es geht darum, wie viel
Arbeitskraft und wie viel Zeitaufwand gebunden ist, nur um am neuesten neuronalen Netz zu forschen. Es geht darum, wie viel Forschungsgelder investiert werden, mit denen man auch andere Dinge tun könnte. Und es geht um endliche Ressourcen unserer Erde wie Metalle, wie die sogenannten seltenen Erden oder wie Erdöl, die dafür gebraucht werden. Und es gibt noch so viel mehr. Das war nur ein ganz kleiner Einblick in das Thema und es ist ganz wichtig,
es geht nicht nur um den Stromverbrauch. Und die Awareness an der Stelle ist einfach noch viel zu niedrig, um darüber quantitativ Aussagen treffen zu können. Aber es ist auf jeden Fall ein Faktor. So viel wissen wir. Und wir kommen damit auch schon zur Frage, wie kann es denn eigentlich weitergehen? Wichtig ist, dass wir alle
uns bewusst sind, dass wir die Verantwortung tragen, wie es in dem Bereich weitergeht. Denn sowohl die Leute, die in diesem Learning arbeiten, aber auch in allen Bereichen, die damit verbunden sind, wir forschen, wir bauen Systeme, wir sorgen dafür, dass solche Systeme weiter entstehen, dass sie wichtiger werden, dass sie, obwohl wir wissen, dass zum Beispiel
das Auto auf Generalisierung, auf Vereinfachungen besteht, dass sie trotzdem für Dinge eingesetzt werden. Wir sorgen dafür, dass unsere Sensorik, die wir in Autos verbauen, irgendwelche 25 Gigabyte pro Stunde an Daten produzieren, die man dann wieder auswerten und daraus was machen kann. Wir sorgen dafür, dass
Systeme optimiert werden. Wir sorgen auch dafür, dass das gebaut werden für die Industrie, damit das komische Hautpflegeprodukt plötzlich optimiert ist. Das kann man natürlich alles einfach so machen, weil man dann in dem Bereich gut Geld verdienen kann. Das ist aber vermutlich keine gute Idee, sondern man sollte sich wirklich überlegen,
was sind die Konsequenzen von dem Ganzen und was müssten wir eigentlich alle ändern, um die ganze Feld weiterzutreiben, denn das ist das Schöne, zumindest im Forschungssektor, es ist ja alles von der Community angetrieben. Es ist immer eine Entscheidung von allen ForscherInnen in den ganzen Bereichen, ob sie genauso weiter
machen oder ob sie eben ihre Arten schieben, ob sie anders agieren, ob sie mehr auf solche Dinge achten oder eben nicht. Grundsätzlich, um weiter zu machen, gerade um die gesellschaftlichen Auswirkungen des Themas zu beeinflussen, was müssen wir anstreben? Wir müssen Diskurs anstreben. Wir müssen mit der gesamten Gesellschaft, mit einer riesigen Breite an
Menschen darüber reden, was wollen wir von diesen Systemen, unter welchen Umstellen wollen wir das von den Systemen, was sind die Auflagen, die wir stellen, was finden wir akzeptabel und was nicht. Es funktioniert nicht, wenn diese Entscheidungen getroffen werden von fünf Leuten, die irgendwie ihre eigenen Interessen vertreten müssen. Das ist ein Diskurs, der auf jeden Fall in die gesellschaftliche Breite gehen muss, weil es gibt einfach keine eine klare Antwort und die Antworten, die wir brauchen, die müssen wir zusammenfinden.
Wir müssen aber auch Bildung auf allen Ebenen vorantreiben, weil ich muss als Informatikerin auch die ethischen Auswirkungen meines Handelns bedenken. Ich muss auch dem End-User sagen können, was das jetzt bedeutet, wenn er dieses System für was einsetzt. Auch wenn er die technischen Details nicht versteht, muss er in der Lage sein, einzuschätzen, ob der Einsatz an der Stelle sinnvoll ist. Und gerade auch die Menschen, die die
Legislatur vorantreiben und diese Menschen sollte es auf jeden Fall in irgendeiner Form geben, müssen genug davon verstehen und auch wirklich einschätzen zu können, was sie da gerade erlauben oder nicht erlauben, damit wir auch die positiven Aspekte solcher Felder mitnehmen können. Awareness ist ganz besonders wichtig. Damit wir diesen Diskurs führen können, damit wir diese Bildung vorantreiben können, müssen wir darüber reden, wie funktionieren unsere Daten und unter welchen Umständen
verwenden wir sie? Wo kommen die Modelle her? Wie funktionieren Erklärbarkeiten und Reproduzierbarkeit? Aber auch, wer trägt die Verantwortung? Was sind die Konsequenzen? Und wie führen wir diesen Diskurs? Am Ende gilt, wir müssen umdenken, statt nur zu folgen. Es funktioniert nicht, wenn wir einfach so weitermachen wie bisher, sondern wir müssen in manchen Dingen einfach grundlegend auch nochmal nachdenken.
Viele dieser Maßnahmen sind tatsächlich doppelt hilfreich, begünstigen sich gegenseitig. Wir stecken dann nicht unbedingt in einem Teufelskreis drin. Wenn wir systematisch arbeiten, dann tun wir der Reproduzierbarkeit gefallen, aber auch unserem Ressourcenverbrauch, weil wir viel weniger nochmal machen müssen. Wenn wir die Alternativen zu Deep Learning auch nutzen, tun wir der Erklärbarkeit gefallen, aber auch der Datensparsamkeit wahrscheinlich. Und wenn wir den
Publikationsdruck senken und damit die Qualität in die Höhe schreiben, dann fördern wir den wissenschaftlichen Anspruch und wir helfen unserem Ressourcenverbrauch. Aber insgesamt ist unsere größte Herausforderung momentan in der Gesellschaft verbreitete Unwissenheit und dass nicht richtig reflektiert wird, was das überhaupt für Auswirkungen hat, was wir machen und in welchen Skalen wir uns da bewegen. Damit sagen wir fürs erste auch schon Danke. Schön, dass Sie hier waren. Wir haben uns wirklich auch
gefreut, hier sein zu dürfen. Wir hoffen, wir geben ein paar Denkanstöße mit, weil wir können in dieses Thema nur sehr, sehr oberflächlich einsteigen in 50 Minuten. Wir sind jetzt schon relativ weit in der Zeit, trotzdem haben wir noch ein paar Minuten für Fragen, aber auch über den Vortrag hinaus sind wir da froh, wenn Leute sich informieren, wenn Leute recherchieren, selbst kritisieren und reflektieren oder auf uns zukommen, wenn es irgendwelche Fragen gibt. Dankeschön.
Okay, alles klar. Wie erwähnt, wir haben noch ein paar Minuten Zeit für Fragen, damit wir auch möglichst viele und zügig durchkommen. Bewegt euch doch bitte direkt zu den Saalmikrofonen und wir fangen direkt hier mit Mikrofon 4 an.
ich versuche mich kurz zu halten. KI für Autos ist ziemlich faszinierend. Die unterscheidet zuverlässig zwischen einem Baum und einem Verkehrsschild. Ich bin immer wieder enttäuscht, wenn ich KI sehe für Suchmaschinenoptimierung, was ich da in den Saalgebieten bekomme. Ich glaube, das Problem ist die Datengrundlage.
Also einem Baum, da gibt es keine Diskussion, das ist ein Baum. Was jetzt die schönste Webseite ist oder das nächste beste Video, das ist eine Geschmacksfrage. Worauf ich hinaus möchte, wäre es nicht sinnvoll oder dringend notwendig, darüber nachzudenken, wie die Trainingsdaten
qualifiziert sind, ob man die qualitativ einsortieren sollte. Ich stimme so weit absolut zu. Trainingsdaten-Diskussion steht an, müssen wir führen, Qualität ist extrem wichtig. Das Problem geht aber glaube ich noch darüber hinaus. Zum einen die Frage mit dem Auto und dem Fußgänger ist, wie uns der Übercrash 2018 gezeigt hat, gar nicht so trivial. Wo wir festgestellt haben, die Annahme,
dass ein Fußgänger nur auf dem Fußgängerüberweg zu finden ist, ist vielleicht gar nicht so realistisch. Trivial ist es also nicht. Natürlich sind Suchmaschinen einfach auch eine subjektivere Entscheidung, weil was ich suche, weiß am Ende nur ich und jemand mit der gleichen Suchanfrage sucht vielleicht was anderes. Und natürlich ist das Internet einfach eine extrem riesige Datenbasis mit sehr unsauberen Daten. Das heißt, das ist eine völlig andere Herausforderung als
Bildklassifikation von einem autonomen Fahrzeug. Grundsätzlich Trainingsdaten-Diskussion, aber auch über das Monopol von solchen Unternehmen wie Google, gerade was Suchmaschinen angeht, müssen wir definitiv reden. Alles klar, dann machen wir doch direkt weiter mit einer Frage vom Signal Angel aus dem Internet. Das Internet fragt, sollen wir das mit dem Deep Learning dann eigentlich lieber lassen
oder seht ihr auch sinnvolle Anwendungen zum Beispiel, um irgendeinen hohen Datenaufwand für freigiebige NutzerInnen irgendwie zu reduzieren zum Beispiel? Also es sein zu lassen, ist sicherlich nicht der richtige Ansatz. Es zeigt sicher, dass Deep Learning für bestimmte Dinge sehr wertvoll ist. Also wir haben jetzt Beispiele gezeigt, wo es gut funktioniert.
Beispiel, wo es schlechter funktioniert. Gerade bei außerordentlich komplexen Dingen haben wir wenig Ansätze, die anders gut funktionieren. Also was ist ich? Die Verarbeitung menschlicher Sprache zum Beispiel hat einen riesen Schritt nach vorne gemacht durch Deep Learning, weil menschliche Sprache so unglaublich komplex ist, dass ich mit allen bisherigen Ansatz, bei denen ich irgendwie Silben zähle und Buchstaben
vergleiche oder sowas, nicht so wirklich weiter komme. Da brauche ich ganz viel Wissen rein. Das heißt, man muss sich eben überlegen, ist es für diesen Zweck der richtige Ansatz? Und also ich will das jetzt nicht pauschal für ein Beispiel beantworten, das muss man nicht gründlich überlegen. Auch das sollte sicherlich eine der wichtigen Messages hier sein.
Genau, wir stellen im Prinzip nicht die Frage, sollten wir Deep Learning verwenden, sondern wofür sollten wir es verwenden und was müssen wir vorher bedenken? Alles klar, ich versuche dies mit den Fragen hier im Raum so halbwegs chronologisch zu machen, aber wenn wir mal mit Mikro eins weiter. Eine Frage zur Reproduzierbarkeit. Ich saß gerade in einem Lightning Talk, da hatte jemand genau das Problem,
das er was nicht reproduzieren konnte. Eine seiner Hauptforderungen, um das zu beheben, war, dass alles, was man braucht zum Reproduzieren zur Verfügung gestellt wird und dass das auch von Journals enforced wird über Reviews oder über sonstige Sachen. Seht ihr, dass es da irgendwelche Bestrebungen in die Richtung gibt oder ist es ein zu großer Hype, als dass
man da irgendwie eingreifen könnte sinnvoll? Es gibt wie gesagt diese Siegel bei vielen Konferenzen, sicherlich auch bei Journals. Bei Journals je nach Feld, also in dem Bereich, hier wird gar nicht so viel in Journals publiziert, weil man Konferenzen irgendwie leichter hinkriegt und alles geht schneller.
Journals dauert alles irgendwie immer zu lang. Es wäre wünschenswert, dass da mehr passiert, dafür müssen sich aber quasi diese, ich nenne sie mal ältesten Rate, die da sich zusammensetzen und diese Konferenzen planen, organisieren, dafür entscheiden, dass für sie das auf der Periodliste auch so weit oben ist, dass sie das erzwingen. Bisher ist es eben alles optional.
Wünschenswert wäre es definitiv. Und sicherlich reden wir da auch in irgendeiner Form über Regularien und dabei müssen wir dann immer noch unterscheiden zwischen öffentlich geförderten Forschungseinrichtungen und privater Forschung. Das stellt nämlich sehr unterschiedliche Herausforderungen. Ok, dann gehen wir gerade mal kurz zum Mikro Nummer 7, da ganz am Rand. Hallo, danke für den Vortrag.
Haltet ihr AGI für möglich und wann könnte es so weit sein? AGI, Omnipotent Intelligenz oder? Artificial General Intelligence. Ok. Momentan auf Forschungsstand, hell no. Ok, das war eine relativ unprofessionelle Antwort, aber momentan haben wir hauptsächlich sehr spezialisierte Expernsysteme, die genau einen
detailreichen Task machen können. Selbst bei Sprachassistenzsystemen, die irgendwie ein paar Tasks, aber immer noch eine sehr eingeschränkte Menge machen, haben wir aktuell im Forschungsstand zwar große Fortschritte, aber man kann sehr, sehr einfach die Schwächen ausnutzen. Es gibt eine total spannende Professorin in den USA, die immer sagt, gib mir irgendein Sprachverarbeitungssystem, mit drei Fragen mache ich es spätestens kaputt,
und sie hat es bisher noch immer geschafft. Ich glaube das auch. Also wir haben da momentan mit dem aktuellen Start der Technik ziemlich krasse Limitationen. In den nächsten Jahren, ich persönlich, sehe es nicht kommen. Grundsätzlich ist Künstliche Intelligenz aber auf allen Ebenen etwas, das wir im Auge behalten sollen. Also ich würde auch wiederum nicht behaupten, dass davon keinerlei Gefahr ausgeht. Es ist aber auch nicht der zentrale Punkt zur Zeit. Also das
meiste, woran die Leute forschen, sind spezialisierte Systeme und vielleicht noch zusätzliche Systeme, die vorne dran gestellt werden, die dann entscheiden, an welches Teilsystem das Ganze weiter gereicht wird. Aber daran zu forschen, ein weltverstehendes System, was irgendwie auch noch beliebige Formate von Antworten geben kann, um so etwas zu bauen, das gibt es sicherlich, die Forschung, aber es ist
nicht das, was irgendwie auch in den Publikationen groß Platz findet, weil man dort eben überhaupt nicht so weit wäre. Und das andere einfach viel einfacher ist, wenn man da viel leichter was veröffentlichen kann. Wer das fachlich interessiert, ist vielleicht ein schöner Einstiegspunkt, semantische Modellierung, weil wir bei vielen Künstlichen Intelligenzsystemen in der Welt sprechen, dass Allgemeinwissen, Hintergrundwissen diese ganzen Sachen fehlen und die Darstellung dafür auch, dass eine der großen Herausforderungen setzt.
Stichwort. Okay, dann nehmen wir noch eine Frage aus dem Internet. Ich soll erstmal liebe Grüße aus dem D120 ausrichten. Das wisst ihr jetzt besser als ich, was das ist. Und die Frage ist, ist die Reproduzierbarkeit nur oder gerade im Deep Learning Problem oder betrifft das nicht sogar große Teile?
der Machine Learning Forschung. Definitiv große Teile der Machine Learning Forschung, würde ich sagen. Ehrlich gesagt auch darüber hinaus. Reproduzierbarkeit ist bei fast allen wissenschaftlichen Publikationen ein Faktor. Es gibt natürlich Sachen, die dafür anfälliger und weniger anfällig sind, gerade wenn wir über digitale Themen reden. Aber in sich Reproduzierbarkeit ist immer in der Forschung gewünscht und leider definitiv noch nicht weitgehend verbreitet. Also definitiv die gesamte Informatik, ehrlich gesagt. Generell
vieles, was wir hier gesagt haben, trifft auf Machine Learning im Allgemeinen zu. Aber Deep Learning, gerade durch diese riesen Datenmengen und so weiter, da treten die Effekte halt eben verstärkt. Besonders auch, deswegen haben wir uns hier drauf konzentriert, aber man kann es immer auch beliebig übertragen. Und gerade, dass das so ein Buzzword ist,
das macht es auch noch mal anfälliger einfach dafür. Okay, dann Mikrofon Nummer 8. Ja, daran. Anschließend, ich habe irgendwie das Gefühl, dass es ein großer Teil auch publikationsbar ist, wo solange einfach rumgespielt wird an den Daten, bis irgendwie ein Ergebnis rauskommt. Und ich habe, also es ist so ein Trend in der
Psychologie, wo die das Problem ganz massiv hatten und die haben das dadurch gelöst, dass die sagen, hey, ich muss die Studien bei manchen Journals vorregistrieren, sodass meine, das möchte ich machen und dann kommt am Ende vielleicht ein Negativergebnis raus. Gibt es da Bemühungen im Machine Learning, sodass man sagt, ich publiziere den Korpus vorher, den ich, auf dem ich lernen will. Und wenn
dann nichts funktioniert, dann ist das halt so. Ich würde sagen, das ist relativ schwer zu beantworten für den Bereich, weil es vielleicht nicht ganz so funktioniert. Also, einen Datenkorpus zu publizieren an sich, es gibt zum Beispiel Datenkonferenzen, die sich einfach auf sowas konzentrieren. Aber auf einem Korpus kann ich sehr viele
Dinge tun. Und dadurch hilft mir das noch nicht unbedingt. Ich glaube, dass da die Fragestellung einfach komplexer ist. Ich kenne keine konkreten Bemühungen, die jetzt in so eine Richtung gehen. Ich fände sie aber wünschenswert. Es wäre definitiv wünschenswert, aber es wird in der Form kaum gemacht. Also, ich bin bisher fast nirgends wo oder bei den großen Konferenzen bin ich niemals
gezwungen, vorher zu sagen, was ich glaube, wie es ausgeht. Sondern ich liefere erst, erst wenn ich mein Ergebnis vorstelle, sage ich, was da rauskommt und welche Fehlschläge ich hatte und ob ich die überhaupt klausuliert ins Paper reinschreibe oder ob ich es komplett sein lasse, da zwingt mich niemand zu. Es gibt ein paar Bestrebungen,
diese auch Publikation von Fehlschlägen oder Missergebnissen zu machen. Aber auch das wird immer noch von zu vielen Leuten belächelt, so als Unterhaltungsmedium mehr als ernstzunehmende Wissenschaft. Das glaube ich auch ein Problem, weil dadurch die gleichen Fehler zum Beispiel gerade im Machine Learning, wo wir eben viel nicht systematisch arbeiten, sondern auch einfach ein bisschen nach Bauchgefühl gehen müssen, wiederholt werden, was eigentlich
unnötig ist. Dieser typische Satz, das weiß man doch, dass der Ansatz da nicht funktioniert. Ja, woher soll man das denn wissen, wenn man noch studiert? Okay, wir haben noch Zeit für eine kurze Frage und gehen zu Mikrofon Nummer 5. Ich will ein paar Details zu dieser Beschreibung von Black Box wissen. Ich weiß, dass man durch Feature Maps schon
das Netzwerk untersuchen kann und wollte wissen, detailliert was ich einmal mit Black Box, weil es ist nicht so black anscheinend. Das kommt darauf an, wie die Systeme in den Netzwerken verwendet sind. Also es gibt zum Beispiel den Ansatz von Explainable Neural Nets, XNN.
Das ist durchaus valides Konzept und es wird auch eingesetzt. Es gibt aber auch Architekturen, die per se erstmal völlig unlesbar sind und die Ansätze, die darauf existieren, da Erklärbarkeit reinzubringen, sind noch sehr beschränkt. Es gibt sie, sie tun auch sinnvolle Dinge und es ist definitiv auch ein Bereich. Aber zum Beispiel beschränken sie sich oft nur auf den Bereich des eigentlichen Modells,
was trainiert wurde. Die Pipeline im Machine Learning ist aber viel länger. Die beginnt ja schon bei der Datenerhebung, bei der Datenauswahl, bei der Vorverarbeitung, bei der Auswahl der Feature, aber auch danach beim Post-Processing, beim Evaluationsmetriken und so weiter. Und das sind alles irgendwo Stellschrauben, auch für Erklärbarkeit. Also wir haben da auf jeden Fall noch einen weiten Weg vor uns. Aber klar, es gibt Bestrebungen in die Richtung, die
auch durchaus funktionieren für das, für was sie gedacht sind. Okay, dann sind wir jetzt am Ende der Zeit angekommen. Vielen Dank nochmal