We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Praktische Anwendungsbeispiele - Clustering

00:00

Formale Metadaten

Titel
Praktische Anwendungsbeispiele - Clustering
Serientitel
Anzahl der Teile
79
Autor
Mitwirkende
Lizenz
CC-Namensnennung 4.0 International:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache
Produktionsjahr2023
ProduktionsortHeinrich-Heine-Universität Düsseldorf

Inhaltliche Metadaten

Fachgebiet
Genre
Abstract
In dem Interview mit Stefan Reiners-Selbach geht es um das Clustering als Methode in den Geisteswissenschaften. Lernziele: Du erhältst Wissen über den Einsatz von Clustering als Methoden in den Geisteswissenschaften Du lernst unterschiedliche methodische Ansätze für den Einsatz von Clustering kennen Du lernst eines der möglichen Szenarios für den Einsatz von Clustering in den Geisteswissenschaften kennen Das Transkript zu dem Video findest du oben unter “Zusätzliches Material herunterladen” als “Lesematerial”.
Schlagwörter
MetadatenKünstliche IntelligenzCluster-AnalyseJSONXMLComputeranimationBesprechung/Interview
Cluster-AnalyseStatistische HypotheseBesprechung/Interview
Cluster-AnalyseStatistische HypotheseBesprechung/Interview
Besprechung/Interview
Besprechung/Interview
Cluster-AnalyseBesprechung/Interview
VisualisierungEbeneAlgorithmusUngleichungComputeranimation
InternetdienstCOMBesprechung/Interview
VisualisierungCluster <Datenanalyse>DimensionsreduktionBesprechung/Interview
GeschwindigkeitCluster-AnalyseCluster <Datenanalyse>Ausreißer <Statistik>ProgrammiergerätBesprechung/Interview
Cluster-AnalyseVisualisierungBesprechung/Interview
VisualisierungBesprechung/Interview
Besprechung/Interview
VisualisierungCluster-AnalyseBesprechung/Interview
AnalysisApproximationComputeranimationXML
Transkript: Deutsch(automatisch erzeugt)
Jetzt stehen wir vor einem Haufen mit unglaublich vielen Daten. Textdaten, Bilddaten, Daten über Daten, Metadaten. Um da was herausfinden zu können, muss ich mir erst mal das Ganze ordnen. Ich möchte den Haufen mir sortieren. Und am liebsten würde ich das dem Einzelmännchen
machen lassen. Das geht aber nicht, denn die gibt es nicht. Deswegen nehme ich das, was es gibt. Künstliche Intelligenz. Ich habe mir heute einen Spezialisten eingeladen, der uns anhand von Beispielen mal zeigt, wie man Clustering als Methode in den Geisteswissenschaften einsetzen kann. Stefan ist jetzt kein Informatiker, sondern der Koordinator der Digital Humanities an der Heinrich-Heine-Universität Düsseldorf.
Hallo Stefan. Digital Humanist. Was ist das eigentlich? Hi Jacqueline. Danke für die Einladung. Ja, Digital Humanist ist eine gute Frage. Es ist jemand, der in den Digital Humanities arbeitet, der oder die eben digitale Methoden
in den Geisteswissenschaften einsetzt. Also zum Beispiel KI-Methoden oder, wo wir heute darüber reden wollen, dass Clustering beispielsweise in den Geisteswissenschaften einsetzt. Und wie kann ich mir das jetzt vorstellen, dieses Einsetzen des Clusterings als Methode? Hast du da einfach einen großen Haufen von Daten und denkst dir, ja okay, lass mal sortieren. Also wie benutzt du dieses Verfahren und für was?
Das ist auf jeden Fall auch eine Möglichkeit dafür. Also gerade in den Geisteswissenschaften haben wir es ja viel mit sogenannten retro digitalisierten Daten zu tun. Also es heißt Daten, die ursprünglich mal nicht als Daten vorgelegen haben, sondern beispielsweise als Bücher im Fall von Textdaten. Und das sind dann solche großen Datenmengen, die einfach
schon digitalisiert sind und wo wir einen Einblick gewinnen wollen. Worum geht es überhaupt in diesen Daten? Was lassen sich für Themengruppen beispielsweise in diesen Textdaten finden? Und da ist es dann häufig so, dass man einfach vor so einem Berg an Daten steht und Muster darin erkennen möchte, die Daten explodieren, also erkunden möchte und eben herausfinden möchte, worum geht es darin. Auf der anderen Seite glaube
ich, dass man meistens schon eine gewisse Idee hat, womit man sich gerade beschäftigt, weil man die Daten, mit denen man gerade zu tun hat, die hat man ja nicht ohne Grund ausgewählt. Meistens hat man schon eine grobe Vorstellung, worum sollte es und dann kann man eben hypothesengeleitet vorgehen und Fragen an die Daten stellen
und dann eben genauer schauen, ob sich diese Fragen, diese Hypothesen bestätigen oder eben nicht. Gibt es auch bei dir die andere Variante, also dass du eine Hypothese hast und sie mittels Clustering bestätigen möchtest? Ja genau, das gibt es eben auch. Also dieses Explorative ist nicht das einzige. Ich glaube, dass man meistens
vom Explorativen auch dazu kommt, Hypothesen zu formulieren und dann vielleicht noch mal genauer nachzuschauen, vielleicht auch mit anderen Methoden als Clustering. Und so eine ganz klassische Methode für Clustering, die in den Geistwissenschaften eben auch schon vor den digitalen Methoden etabliert war, ist in der Stilometrie die Autoschaftszuweisung, wo man eben schaut, man hat einen Text,
man weiß nicht, wer diesen Text beschrieben hat, hat aber die Vermutung, es könnte Autor in X sein, vielleicht ist es auch Autor in Z und dann nimmt man Texte von Autor in X und Autor in Z und packt die zusammen in ein Clustering mit dem Text, wo man eben nicht weiß, wer ihn geschrieben hat und dann schaut man, was clustered zusammen. Und wenn der Text mit unbekannter Autor in dann eben nah an
Autor in Z clustered, dann liegt die Vermutung nahe, dass Autor in Z eben auch diesen Text geschrieben hat. Das Ganze kann man eben so von Hand machen, das ist natürlich ziemlich kompliziert, aber das Ganze kann man eben heute auch mit digitalen Methoden machen und dann vielleicht weniger mit der Frage nach der Autoschaft, sondern beispielsweise, wenn man Corporam miteinander vergleichen
möchte. Kannst du mir nochmal auf die Sprünge helfen, was genau ist ein Corpus? Ein Corpus ist eine Textmenge, die ich zu einem bestimmten Thema zusammenstelle. An manchen Fällen ergibt sich das aber auch von selbst, weil ich beispielsweise alle Texte einer Zeitschrift oder alle Texte eines
Autors, einer Autorin zu einem bestimmten Thema als Corpus zusammenstellen kann. Aber eigentlich ist da immer so ein wenig auch Urteil der Personen hinter, die ein Corpus als Corpus bezeichnet. Stefan, das ist ja unglaublich spannend, aber graus jede Theorie.
Kannst du uns denn auch was zeigen? Sehr gerne, sogar was buntes, weil beim Clustering wird es dann ja gerne bunt. Ich habe euch hier ein erstes Beispiel mitgebracht, nämlich eines solchen Vergleichs von zwei Corporam. Also diese Visualisierung ist so zu lesen, dass jeder Punkt einem Text entspricht. Das Verfahren, was diese Punkte herstellt,
das ist ein Vectorizer, der also die Texte vektorisiert, in Vektoren umwandelt. Das sind dann hochdimensionale Vektoren, dann benutzt man eine Dimensionsreduktion, um das Ganze auf der Ebene in dem zweidimensionalen Raum hier visualisieren zu können. Und das Ganze ist so zu lesen, dass je näher sich zwei Punkte liegen, desto ähnlicher sind die
Texte laut Algorithmus. Und die Einfärbung, die ihr hier seht, das ist gar kein decidierter Clustering-Algorithmus gewesen, sondern was ich hier eingefärbt habe, ist quasi die Herkunft der Texte, aus welchem Corpus stammen sie. Und jetzt ist es interessant, eben diese Einfärbung mit der Lage der Punkte zu vergleichen. Also wir sehen in der Mitte, dass da
ziemlich viele Punkte aus beiden Corpora auf einem Fleck liegen. Und das heißt, hier haben wir es mit einer Textmenge zu tun, wo die Themen, die behandelt werden, wohl sehr ähnlich sind. Wohingegen es dann solche Randbereiche gibt, wo es dann nahezu gar keine Überschneidung gibt. Das heißt, die beiden Text-Corpora sollen eigentlich dasselbe Thema behandeln. Man sieht hier aber ziemlich deutlich, dass es doch ganze
Themenkomplexe gibt, die eben überhaupt nicht von beiden behandelt werden. Und auch hier so ein paar kleine Ausreißer, oder? Und auch einige kleine Ausreißer, würde ich sagen. Man sieht hier unten ein Ausreißer und auf der anderen Seite ein Ausreißer, die also völlig unterschiedlich sind, die sich vom Thema also völlig von den anderen Corpora unterscheiden. Und hier wäre es dann total spannend
einzusteigen. Was sind das für Texte? Warum sind die überhaupt in dieses Corpus gekommen? Und quasi, ja, was haben die mit dem anderen zu tun? Und an welchen Stellen eben nicht? Du hast mir auch noch ein zweites Beispiel versprochen. Her damit. Oh, ganz schön bunter Haufen. Was für Daten sehen wir denn da jetzt eigentlich?
Ja, das ist die Zeitschrift für Völkernpsychologie und Sprachwissenschaft, die von 1860 bis 1890 erschienen ist. Und hinter dem Begriff Völkernpsychologie, der klingt ja ganz schrecklich, verbirgt sich eigentlich so etwas wie die erste Kulturwissenschaft. Und der Begriff Volk wurde da noch eingebracht, weil es eben für die Theoriemacher des ganzen
die prototypische soziale Gemeinschaft ist. Es ist so was wie Kulturwissenschaften gepaart mit so was wie in einer Vorform der Soziologie. Aber der Anspruch ist, die Gesamtheit der Kultur abzubilden. Das heißt also, alles soll dazugehören und nicht das erste
Mal nicht nur die Hochkultur, sondern eben auch die Alltagskultur und so was, was damals eben die Volkskultur genannt wurde. Und dabei geht es darum, die Gesetzmäßigkeiten in der Kultur zu entdecken. Was ihr jetzt hier seht, es ist genau derselbe Vectorize darüber gelaufen, genau dieselbe Dimensionsreduktion. Das heißt also, es ist wieder jeder einzelne Punkt,
als einen Text zu lesen. Jeder Punkt steht für einen Text. Die Farben hier stammen aber von top to weg. Das ist ein thematischer Clustering-Algorithmus. Der bildet nicht nur Cluster, die ich visualisieren kann anhand der Farben, sondern der liefert auch noch Wortlisten, die diese Cluster beschreiben sollen.
So, jetzt hast du diese ganzen Cluster und der Themen. Was lässt sich für dich aus der Visualisierung ablesen? Also ich kann an die Visualisierung rangehen und erst mal explorieren. Das heißt, schauen, was gibt es überhaupt für Themen und wie kombinieren sich vielleicht auch bestimmte Themen miteinander. Auf der anderen Seite kann ich auch Fragen, die ich
aus den programmatischen Texten dieser Zeitschrift generiere, was zum Beispiel eigentlich Bestandteil dieser Wissenschaft sein soll, worum es alles gehen soll, welche Themen dazugehören sollen, überprüfen. Gibt es diese Themen? Kommen die vor? Und eben vielleicht, welchen Anteil machen sie aus? Und wie sind sie mit anderen Themenkomplexen verknüpft? Das heißt also, ich kann hier Muster
erkennen. Ich kann hier Ordnung in das, vielleicht das K aus dieser Zeitschrift in diesen Datenhaufen bringen. Auch wenn es jetzt ein bunter Datenhaufen ist, der nochmal chaotisch aussieht. Aber gerade diese Farben, gerade diese Visualisierung geben mir auch eine Struktur, die ich mir nochmal genauer anschauen kann, wo ich gerade mit diesem Clustering-Algorithmus Themen entdecken kann,
worum es in dieser Zeitschrift geht. Ich nehme jetzt einmal ein ganz kurzes Beispiel. Hier oben diese Outlier. Wir können uns diese Wortlisten angucken. Das ist hier unter dem Titel Topic Keys top to back. Statistisch, Bevölkerung, Nation, Stammbaum, Nationalität. Ok, komisches Themenkomplex. Aber hier sieht man also einmal, dass dieser Text zur Moralstatistik nicht zum gesamten
Korpus zu passen scheint. Und das ist ganz spannend, weil wir nämlich in der Mitte diesen hellgrünen Bereich haben. Das ist der Themenkomplex, der hier genannt wird Spekulativ, Erkenntnis, Gesetzmäßigkeit, Historiker geschehen. Wenn man ein bisschen in die Texte reinschaut und schaut, wie diese Begriffe da zusammenpassen,
dann sieht man, dass das eigentlich quasi der Themenkomplex ist, der das Programm der gesamten Zeitschrift bestimmt. Worum soll es hier gehen? Es geht nämlich darum, Gesetzmäßigkeiten zu finden in der Kultur, beispielsweise und Erkenntnisse zu generieren. Und jetzt ist es total spannend zu sehen, dass es einige Texte gibt, einige Cluster
gibt, die sich bilden, also räumliche Cluster auch gibt, die sich bilden, die total wenig mit diesen programmatischen Texten zu tun haben. Also das Clustering hilft dir jetzt, diese Muster und Gesetzmäßigkeiten zu erkennen in einer Zeitschrift, die über 30 Jahre hinweg erschienen ist. Also ich habe quasi den Überblick über diese Zeitschrift, den ich von Hand gar nicht hätte erreichen können, weil es einfach
viel zu viele Texte sind, als dass ich sie hätte von Hand lesen können. Und jetzt mit Hilfe dieser Analyse kann ich eben diesen Überblick gewinnen und quasi die Struktur eigentlich hinter der gesamten Zeitschrift sehen. Und das ist auch gerade aus meinem Fachhintergrund spannend, weil die Theorie des Programms vielleicht etwas völlig anderes ist als dann die Praxis, die hier
umgesetzt wird. Also quasi was soll da drin sein? Worum soll es gehen? Wenn sich das stark davon unterscheidet, was tatsächlich in dieser in dieser Wissenschaft gemacht wird, dann ist das auf jeden Fall eine Erkenntnis, die total spannend ist und wo man noch mal genauer nachschauen muss, wie es denn wirklich aussieht. Also von wie vielen Texten sprechen wir denn eigentlich, die du mit dem Clustering
hier sortiert und für dich strukturiert hast? Also das sind 482 Texte insgesamt in dieser Zeitschrift, die ich aber für diese Analyse noch einmal auseinander genommen habe, die ich noch mal zu kleineren Chunks zerlegt habe. Denn manche Texte in dieser Zeitschrift sind 80 Seiten lang und behandeln dann in einem Text mehrere Themen.
Und ich möchte aber mit dieser Visualisierung, mit dieser Analyse, mit meinem Clustering eine größere Schärfe, eine größere Tiefe erreichen und genauer an die Texte reinschauen. Und das habe ich eben dadurch erreicht, dass ich die Texte, diese langen Texte in kleinere Segmente zerlegt habe und dann eben hier visualisiert habe. Jetzt kennst du diese Zeitschrift ja
aufgrund von deiner Forschung schon sehr gut. Gibt es denn nach der Analyse etwas, das dich überrascht hat? Man hat ja gewisse Erwartungen immer oder vorgefertigte Eindrücke über Zeitschriften. Hat sich da was aufgrund dieser Visualisierung bei dir geändert? Ja, absolut. Also es ist einfach für mich überraschend gewesen, um das ganz
konkret zu machen. Sprachwissenschaften sollen eben ein Teil des Ganzen sein. Aber wieso die Sprachwissenschaften die absolute Mehrheit thematisch an Texten ausmachen, das ist schon ziemlich überraschend. Das passt aber wiederum eigentlich noch ganz da rein, denn es sollen quasi in dieser Zeitschrift sollen Gesetzmäßigkeiten der Kultur entdeckt werden.
Und ich glaube und ich glaube, das kann man ganz gut behaupten, dass die Sprachwissenschaften hier für diesen Gesamtkomplex der Zeitschrift als Vorbild dienen, weil die Grammatik in der Sprache so etwas wie eine Gesetzmäßigkeit der Kultur ist. Das heißt, es ist total spannend zu sehen, dass wie Sprachwissenschaft hier eingebunden wird, weil es eben diese Vorbildfunktion hat.
Aber auf der anderen Seite Themen, die eigentlich dazugehören sollten, ziemlich weit ab von den restlichen Themen der Zeitschrift geclustert werden und ziemlich weit ab sich dann eben auch in der Visualisierung finden. Wo einfach die Frage ist, wieso ist da diese Lücke? Also wieso passt das scheinbar nicht zu den anderen Texten? Wieso passt das da scheinbar nicht so rein?
Ja, und wie es bei Kultur immer so ist, es ist einfach ein unglaublich preises Spektrum. Und anscheinend hat die Zeitschrift es geschafft, es irgendwie abzudecken. Ja, es ist wirklich verrückt, weil den Begriff der Kulturwissenschaften gibt es zu diesem Zeitpunkt noch nicht. Deswegen verbirgt sich dahinter das alles hinter diesem sperrigen Begriff Völkerpsychologie.
Aber der Anspruch war es eben die Gesamtheit der Kultur und hier auch das erste Mal sowas wie Alltagskultur mit abzubilden. Und ich glaube, das ist ein bisschen auch das, worum es da in der Forschung geht. Das ist ein bisschen zu viel auf einmal gewesen, die man sich da vorgenommen hat, dass man quasi die gesamte Breite der Kultur und eben das erste Mal auch nicht nur die Hochkultur behandeln will,
sondern eben alles. Und das zeigt sich wiederum ja auch in dieser Visualisierung. Aber ich glaube, umso spannender ist das, weil diese Wissenschaft sich so bunt aufstellt, das Ganze dann eben auch so zu entdecken und zu schauen, OK, welche Themen gibt es da? Was kommt da alles drin vor? Vielen Dank für diese tollen Beispiele, Stefan. Jetzt haben wir nicht nur
einen Einblick bekommen, für was man Clustering alles benutzen kann, wie es als Methode in den Geistes und den digitalen Geisteswissenschaften eingesetzt werden kann. Wir haben auch noch was über die ganz frühen Anfänge der Kulturwissenschaft gelernt. Ja, ich freue mich, dass ich das Beispiel mitbringen konnte und euch einmal ein bisschen in meine Arbeit einführen konnte. Und ich glaube, es ist total spannend,
sich in den Geisteswissenschaften auch mit solchen digitalen Methoden auseinanderzusetzen, denn es gibt immer mehr digitale Texte und es gibt immer mehr digitale Methoden. Und warum sollte man sich nicht darauf stürzen? Ja, warum sollte man sich nicht darauf stürzen? Danke dir. Gerne.