We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Visualisierungsanwendungen für Bibliotheken und Wissenschaft am Beispiel von DNBVIS_frodiss

00:00

Formal Metadata

Title
Visualisierungsanwendungen für Bibliotheken und Wissenschaft am Beispiel von DNBVIS_frodiss
Title of Series
Number of Parts
13
Author
Contributors
License
CC Attribution - NoDerivatives 3.0 Germany:
You are free to use, copy, distribute and transmit the work or content in unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
In den letzten Jahren ist das Interesse an Analysen und Visualisierungen bibliothekarischer Metadaten kontinuierlich gestiegen, denn diese können nicht nur für die Beantwortung wissenschaftlicher Fragestellungen bspw. in den Digital Humanities genutzt werden, sondern auch Bibliotheken selbst interessante neue Erkenntnisse über ihre Bestände und Daten liefern. So lassen sich hiermit unter anderem statistische Auswertungen wie bspw. zu Publikationstrends sowie Analysen zu Themen und Stimmungen durchführen oder auch neue Methoden zu verbesserter Erschließung entwickeln. Da insbesondere bibliothekarische Metadaten im großen Umfang nur schwer zu lesen sind, bieten Visualisierungen als besondere Form der Datenexploration zahlreiche Vorteile: So können sie genutzt werden, um einen Überblick über ein Metadatenset zu erhalten oder auch um Interessierten aus dem Bibliothekswesen sowie der Forschung Möglichkeiten für unterschiedliche Analysen und Fragestellungen aufzuzeigen. Nicht zuletzt bieten sie aber auch das Potenzial, Unstimmigkeiten in den eigenen Daten zu entdecken und können somit auch zur Qualitätssicherung der Daten beitragen. Mit DNBVIS_frodiss (https://dnbvis-frodiss.streamlit.app/) wurde exemplarisch das Metadatenset der „Freien Online-Hochschulschriften“ der DNB aufbereitet und visualisiert. Die Anwendung bietet die Möglichkeit, das Set nach verschiedenen Kriterien zu betrachten (bspw. nach Fachgebieten, Sprache, Publikationsort) und gleichzeitig mit Hilfe entsprechender Verlinkungen die jeweils zugehörigen Publikationen im Katalog der DNB aufzurufen. Der Vortrag stellt die Anwendung DNBVIS_frodiss vor und gibt Einblick in deren methodische wie praktische Entwicklung. Dabei wird auch der Prozess der notwendigen Datenbereinigung und weitere Herausforderungen wie bspw. der Umgang mit Freitextfeldern beleuchtet. Zudem wird auf zukünftige Potenziale und Weiterentwicklungsideen des Konzepts eingegangen.
Keywords
Computer animation
Computer animation
Computer animation
Computer animation
Computer animation
Genau, ich stelle Ihnen jetzt kurz unser Tool oder eine eher experimentelle Anwendung vor, die ja als Nebenprodukt quasi entstanden ist, nämlich die sogenannte Anwendung DNB-Vis-Frodis
als Visualisierungsanwendung. Und zwar kam bei uns öfter auch die Frage auf, warum Daten und warum Metadaten eigentlich visualisieren. Und dazu gibt es aus meiner Sicht also vor allem drei gute Gründe. Und zwar ist der erste natürlich tatsächlich einfach das Verständnis,
also dass einfach Visualisierungen dazu natürlich beitragen können, verschiedenste Aspekte eben von Verhältnissen bestimmter Daten zueinander, von Verteilungen, von zeitlichen Entwicklungen und so weiter und so fort eben einfach auf einen Blick gut sichtbar darzustellen. Auf der anderen Seite helfen solche Visualisierungen natürlich auch einfach tatsächlich den Fokus auf
einen sehr bestimmten Aspekt in einer Datenlänge zu lenken. Und zu guter Letzt sind sie natürlich auch einfach sehr effizient. Also das heißt, man kann eben wirklich bestimmte Aussagen sehr schnell visuell erfassbar machen, die man sonst einfach zwar auch in Texten oder Ähnlichem natürlich drin hat, aber man bräuchte einfach viel länger sie zu erfassen, sie zu extrahieren,
als wenn man sie eben visualisieren kann. Wir haben ein bisschen ein Erbe an der DNB, was Visualisierungsanwendungen angeht, das möchte ich auch nicht unterschlagen, denn wir haben 2017 schon mal einen Prototypen einer Visualisierungsanwendung gebaut in
Kooperation mit der FH Potsdam. Das Ganze nannte sich dann eben DNB WIS und basierte auf einem Datendampf von circa 15 Millionen Titeldatensätzen, die aber auch damals eben schon nur ein Auszug waren. Und das Ziel des Ganzen war damals NutzerInnen eben einfach das
virtuelle Browsen und Durchstöbern der Bestände zu ermöglichen, also quasi eben virtuell dieses Flanieren am Bücherregal nachzustellen, nachzubilden, um eben Entdeckungen quasi auch einfach zu ermöglichen, die man sonst in einem Online-Katalog, wenn man sehr gezielt nach Begriffen oder Autoren sucht, ja einfach weniger hat, also diese Zufallsfunde zu
ermöglichen. Das heißt, das Interface war auch entsprechend gestrickt, vergleichsweise simpel gehalten, und es wurde dann nach Häufigkeiten ein bisschen dargestellt, erst mal viele Schlagworte, viele Personen etc. und dort konnte man sich dann ein bisschen in die Tiefe klicken, also beispielsweise sagen, ich interessiere mich jetzt hier für deutsche Literatur und dann kamen verrannte Begriffe auf und dann wurden auch entsprechend Autoren
angezeigt, die eben hier sehr häufig vorkamen und auf diese Art und Weise konnte man das Ganze dann ein bisschen einschränken, konnte auch noch zeitlich das Ganze über eben ein Interface einschränken und dann kam man quasi zu einer Trefferliste, die dann eben bestimmte Werke einfach beinhaltet hat, mit denen man dann wiederum bei uns
im Katalog diese Dinge auch natürlich bestellen konnte. Ich zeige Ihnen das jetzt heute nicht, das ist ein bisschen zu weitführend, aber Sie können das Ganze natürlich nach wie vor aufrufen, das ist verfügbar und so gesehen halt aufbauend oder als zweiter Prototyp gibt es eben jetzt seit 2023 DNB Wiss-Frodes, also Sie merken
halt hier natürlich, der Name hat eine Ähnlichkeit aus einem bestimmten Grund, aber das Ganze ist doch eigentlich sehr unterschiedlich, denn DNB Wiss-Frodes ist nicht in irgendwie einem Projekt oder in Kooperation entstanden, sondern tatsächlich eher nebenbei. Es ist sehr experimentell aus dieser Sicht und es ist tatsächlich
eher so eine Art Testbanon, um einfach mal auszuprobieren, was können uns denn Visualisierungen bieten, was können wir damit eigentlich machen und was hilft es uns oder wie funktioniert es überhaupt, wenn man jetzt ein bestimmtes Datenset zum Beispiel einfach mal visualisieren will, was ist der Mehrwert, wie kann ich das machen und wie kann ich das dann
eben auch vielleicht weiterentwickeln. Das heißt, das ist wie gesagt eher etwas, was experimentell entstanden ist und zwar auf Basis eben unseres Datensetzes freie online Hochschulschriften. Wir haben verschiedene Datensätze, die wir halt einfach zum Download auch anbieten. Davon haben
wir einige, die eben ja auch frei verfügbare Objekte beinhalten und da haben wir uns quasi einfach eins rausgegriffen, um es eben exemplarisch zu visualisieren. Sie können diese Datensätze bei uns im DNB Lab auch runterladen und dann kann man das Ganze quasi auch nachvollziehen. Das Ziel eben der Anwendung DNB Wiss-Frodes ist dabei jetzt eben wie
auch nicht das Auffinden konkreter Publikation oder dieses Durchstöbern, sondern vielmehr verschiedene Einblicke einfach in den Inhalt eines Datensetzes zu bieten und zwar eben auf der Metaebene, also dass man quasi sich anschauen kann, was steckt eigentlich in diesem Datenset, was habe ich da drin, wie verteilen sich die Publikationsjahre der
Werke, die dort drin sind, welche Schlafworte, Sachbegriffe etc. sind vielleicht dort viel vertreten, aber auch kann ich mir angucken, wie Publikationsorte quasi, wie sich das geografisch verteilt oder ähnliches und das Ganze kann man dann eben natürlich auch nutzen, um beispielsweise wenn man feststellt, nur dieses Datenset, da ist irgendwas auffällig drin von einer
bestimmten Kategorie, habe ich wahnsinnig viel von der anderen super wenige, sowas regt dann natürlich auch dazu an zu schauen, gibt es da einfach auch vielleicht Forschungsfragen, die ich ansonsten stellen kann oder die mich dann eben auch weiterführen. Das Ganze können Sie online aufrufen, das ist verfügbar unter
dnbvis-frodis.streamlit.app, das heißt es ist eine Anwendung, die ist jetzt in Python geschrieben und läuft quasi mit Streamlit, das ist ein Open Source Framework, was wir dafür genutzt haben und ich springe jetzt mal einfach tatsächlich auf die Webseite in der Hoffnung, dass das funktioniert,
genau, und zeige Ihnen das Ganze mal. Also das heißt wir haben hier quasi einfach einen Einstieg, der kurz nochmal dieses Datenset einfach erklärt, welches das ist, wo das Ganze herkommt, wo man es eben auch herunterladen kann und dann werden quasi hier auf der Startseite einfach erstmal schon mal ein paar Statistiken angegeben, zum einen eben ja wie
viele Hochschulschriften sind denn eigentlich aktuell in diesem Set überhaupt enthalten, zusätzlich dann eben hier auch schon mal die Informationen, um wie viel das Ganze jetzt gewachsen ist seit dem letzten Datenabzug, Sie müssen dazu wissen, diese Datensets, also das Datenset der Freien Online Hochschulschriften wird bei uns alle vier Monate aktualisiert und dann wird eben quasi auch jedes Mal diese Anwendung
aktualisiert, das heißt Sie haben dann hier immer die Differenz zum letzten Mal, also vor circa vier Monaten und dann sehen Sie halt auch hier nochmal ein bisschen aufgedröselt, wie viele Dissertationen sind dann jetzt eigentlich hier in diesem Datenset enthalten, wie viele Habitlitationen und vielleicht eben auch noch in dem Fall wie viele
andere Hochschulschriften und dass das hier gar nicht viele sind, das ist auch absolut korrekt so, weil sich das hier bei uns auf die Reihe H bezieht und da eben wirklich ja primär einfach Dissertationen und Habitlitationen drin sind. Auf der linken Seite sehen Sie dann außerdem, dass wir hier eben nochmal eine Angabe haben zu
Datensetzen im Set selbst, die Zahl, die Sie hier sehen, ich weiß nicht, ob man es erkennen kann, die ist ein kleines bisschen höher als die Zahl der Hochschulschriften im Set selber und damit kommt man auch dann schon gleich so ein bisschen in die Tiefen und die Herausforderungen des Ganzen, denn wir haben einige Datensätze auch in diesem Set, die quasi gar keine Hochschulschrift
selbst sind, sondern die rein sind, in denen Hochschulschriften selbst enthalten sind und die dann hier quasi so gesehen erstmal vorher auch da rausgefiltert werden. Außerdem zeigt das Ganze natürlich an, wann der Stand dieses Datensets, dieses Abzugs eben erstellt worden ist, also das sind jetzt hier alles Daten vom Ende März, die wir hier sehen, das
heißt aktuell ist es sicherlich schon wieder mehr und Sie sehen natürlich auch, wann das Ganze zuletzt aktualisiert wurde. Zu guter Letzt haben Sie hier unten auch noch eben dann einen Link, der auf unser GitHub führt, das heißt hier in diesem Repositorium liegen dann quasi die ganzen Daten, die hier als Hintergrund eben für diese App fungieren. Das heißt,
die können Sie sich auch jederzeit angucken, was hier eigentlich wie zusammengeschraubt wurde. Außerdem haben wir dann hier auf der Seite, anstatt eben dieser also wirklich statistischen Einstieg, den wir hier bieten, die verschiedenen Visualisierungen quasi unter diesen unterschiedlichen Reitern versteckt und da haben wir eben zum einen eine Darstellung nach Publikationsjahren.
Das heißt, hier wurde dann eben geschaut, wie verteilt sich das Ganze, was sind da für Publikationen drin, man sind die erschienen und da sehen Sie natürlich auch, das ist hier, fängt 1990 hier in dieser Visualisierung an und steigt dann natürlich hier erst um die Jahrtausendwende und dann eben auch extrem an. Das Ganze ist auch so, dass wir
hier eine Begrenzung eingezogen haben, also es sind tatsächlich zum Teil Hochschulschriften in dem Set enthalten, die noch ein älteres Datum enthalten, also wir haben glaube ich sogar welche, da ist 1923 zum Beispiel drinne. Das sind dann aber natürlich Retro-Digitalisator, also das ist dann schon korrekt, dass das auch Dessertationen sind,
die auch online frei verfügbar sind und in dieses Set gehören, aber die sind halt einfach hier an der Stelle jetzt natürlich nicht berücksichtigt, damit die Visualisierung selber übersichtlich bleibt und dieser Balken jetzt nicht mit sehr vielen quasi Leerstallen dann bis ins Unermessliche nach links noch geht. Das Ganze ist auch dann immer hier unten
nochmal in diesen Informationen zu den einzelnen Visualisierungen erklärt, wenn eben solche Einschränkungen oder ähnliches vorgenommen worden sind, dass man nachvollziehen kann, wie es jetzt genau zu dieser Darstellung kam und welche Daten Sie jetzt da eben auch genau sehen. Zusätzlich ist das Ganze auch noch mit links versehen, das heißt, wenn Sie jetzt hier eben für die einzelnen Jahre
auf die Anzahl der im Set enthaltenen Publikationen hier klicken, dann kommen Sie tatsächlich eben auch an der Stelle dann bei uns einfach in den Katalog und können eben hier die entsprechenden Publikationen, die sich dann wirklich dahinter verstecken, eben auch betrachten. Wir haben das Ganze dann auch nochmal nach Fachgebieten
aufgeschlüsselt, das heißt, es gibt hier einmal eine vereinfachte Kachel-Darstellung, die einfach anzeigt, wie viele verschiedene Kategorien quasi sind hier drinnen. Wir haben uns ja an den DDC Hauptklassen orientiert, wie Sie wahrscheinlich sehen und was halt auch natürlich sehr stark auffällt, ist, dass hier Naturwissenschaften und Technikmedizin sehr,
sehr stark vertreten sind und Literaturwissenschaften, Geschichte und Geografie, Religion, Sprache etc. dagegen so gut wie gar nicht und das erklärt sich natürlich auch einfach an den Publikationskulturen in den verschiedenen Fachgebieten und dass eben wir hier halt wirklich von online frei verfügbaren Texten sprechen. Also diese Setten, das
sind die online frei verfügbaren Dissertationen und Habilitationen, das heißt, alles was Open Access irgendwie veröffentlicht worden ist, alles was weiterhin im Closed Access veröffentlicht wird, was wir natürlich auch sammeln, ist halt hier einfach nicht berücksichtigt und das ist natürlich gerade in den Geisteswissenschaften doch immer noch vergleichsweise viel im Verhältnis, wenn man sich eben die Naturwissenschaften
anschaut. Auch hier kann man wieder klicken und dann eben quasi zu uns in den Katalog zu den entsprechenden Publikationen gelangen und Sie sehen auch, hier gibt es auch welche, da konnten wir keine Zuordnung zu einem Fachgebiet vornehmen, weil tatsächlich beispielsweise keine DDC und keine Sachgruppe hinterlegt war und
gleichzeitig kann man dann hier aber auch noch mal ein bisschen in die Tiefe gehen und sagen, wenn mich jetzt eben doch wirklich interessiert, was versteckt sich denn hier in den Dissertationen oder Hochschulschriften der Sprache, dann kann ich mir hier noch mal andere Grafiken anzeigen lassen und bekomme quasi noch mal eine Auffächerung dann auch nach den DDC
Unterklassen und kann hier eben auch entsprechend noch mal in die Tiefe gehen und sagen, wird dann natürlich ein bisschen klein, also im Zweifel muss man hier mit der Maus drüber, um dann wirklich zu sehen, welche DDC Sachgruppe sich dahinter versteckt und kann dann aber auch hier noch mal in diese weiteren Unterteilungen reingehen und dann noch mal weiterschauen. Griechisch war
jetzt hier nicht gerade die beste Option, aber hier sehen Sie dann auch, da kann man dann eben auch noch mal ein bisschen in die Tiefe gehen und weiterschauen und sich das hier eben auch noch mal in der Form für die verschiedenen Hauptgruppen eben einfach anschauen und auf diese Art und Weise hier quasi das Datenset ein bisschen thematisch erkunden. Zuletzt, nicht zuletzt
so gesehen, haben wir noch die geografischen Darstellungen, das heißt, wir haben hier einmal eine Nachpublicationsorte und hier wird natürlich auch daneben das Größenverhältnis einfach versucht darzustellen anhand der Größe der verschiedenen Bammeln hier, man kann reinzoomen etc. und wenn man
hier jetzt auf einen dieser Punkte klickt, für Göttingen beispielsweise, auch dann bekommen Sie halt hier wieder einen Link, mit dem Sie wieder in den Katalog springen können, um die direkt, die Publikationen sich anschauen zu können und andersrum haben wir das Ganze auch noch mal statt nach Publikationsorten jetzt nach der
jeweils ja titelverleihenden Hochschule aufgedröselt. Man sieht, es ist im Grunde nicht unähnlich wie die Publikationsorte selbst, was natürlich daran liegt, dass bei ja Open Access publizierten Dessertationen jetzt mal im Großen und Ganzen natürlich häufig diese dann auch einfach in den Repositorien der Unis liegen und diese eben als Publikationsorgan
dann auch dienen, aber eben auch nicht bei allen, also ein bisschen abweichend ist es dann auch und auch da kann man dann wieder hier entsprechend eben klicken und zu den entsprechenden Universitäten gelangen und deren zuhöriger Hochschulschriften. Jetzt zuletzt haben wir die Sprachdarstellung und hier wurde einfach noch mal geschaut, in welchen Sprachen sind denn diese
Hochschulschriften eigentlich veröffentlicht worden und da sieht man dann natürlich auch, das sind tatsächlich überraschend viele dann eben auch in Englisch verfasst worden, was wiederum bei dem Fokus auf ja Techniken und Naturwissenschaften nicht so ganz verwundert, aber interessant ist dann auch noch mal hier dieser kleine Abschnitt mit anderen Sprachen, das sind nur 0,28 Prozent insgesamt, aber
wenn man sich den dann noch mal wiederum auffächert und das haben wir hier unten dann gemacht, dann sieht man was da noch alles drinne steckt und das ist dann doch noch mal eine schöne bunte Vielfalt, was alles ja tatsächlich auch an Sprachen eben in diesen Hochschulschriften sich so versteckt und hier natürlich auch ein relativ großer Anteil dann
tatsächlich auch noch mal mit den Ersprachigen. Genau, zu guter Letzt gibt es halt hier noch eine kurze Erklärung eben auch einfach zur Methodik des Ganzen, wie das entstanden ist und eben auch dann wiederum den Link auf das Gitter Präpositorium und so setzt sich diese Anwendung dann zusammen.
Jetzt muss ich noch einmal zurück. Genau und dann wollte ich Ihnen noch kurz was dazu erzählen, wie wir das Ganze jetzt im Hintergrund quasi entwickelt haben und was eigentlich dann auch die Herausforderungen an der ganzen
Sache sind, beziehungsweise wo auch Potenziale liegen und zwar sind aus diesem Datenset der Freien Online Hochschulschriften, in denen jetzt erst mal alle Metadaten, die wir irgendwie haben, drinne liegen, also das ist ein XML-Dump in Mark 21, haben wir verschiedenste Sachen eben extrahiert. Zum einen unsere interne ID-Nummer, aber dann
natürlich eben das entsprechende Data Field für die Sprachen, die Felder für die DDC-Sachgruppen für die DDC sowie für die Sachgruppen und da sehen Sie hier schon, da sind schon vier Felder, die wir da genutzt haben. Für das Publikationsjahr sind ebenfalls mehrere Felder extrahiert worden, auch für den Publikationsort,
für den Hochschulschriften vermerkt, der hier natürlich auch ganz wichtig ist. Ja, haben wir hier unterschiedlichste Informationen, die dann halt im Hintergrund quasi priorisiert worden sind und dann wird halt geschaut, wenn die Angabe dort und dort nicht steht, wo sie eigentlich also primär normalerweise zu finden ist, dann wird eben in dem
nächsten Feld geschaut und so weiter und so fort und beziehungsweise beim Hochschulschriften vermerkt ist es dann eben auch so, dass wenn eben nicht dieser komplette von früher quasi nach dem alten Standard verfügbar ist, dann wird halt nach den RDA-Feldern geschaut und dann eben dieser Hochschulschriften vermerkt quasi erstmal wieder zusammengesetzt. Außerdem sind
natürlich vorher die Daten noch entsprechend bereinigt und vorbereitet worden, das heißt, das hatte ich gerade schon erwähnt, alle Datensätze, die keinen Hochschulschriften vermerkt haben, die in diesem Set sind, sind erstmal entfernt worden, das sind so um die 500, also es ist ein sehr kleiner Teil. Außerdem wurden
aber eben auch dann die Angaben zum Publikationsort entsprechend bereinigt und oder ergänzt, weil es durchaus Publikationen gibt, die keinen Publikationsort direkt angegeben haben, indem er dann wiederum aus dem Hochschulschriftenvermerk auch genommen wurde. Die bereits erwähnte Einschränkungen für die Darstellung der Publikationsjahre ab 1990, die
Identifikation der Datensätze ohne DDC-Eintrag, das heißt, es sind einige darunter, die natürlich einfach noch nicht unbedingt eine DDC, sondern dann eben auch noch eine Sachgruppe vergeben haben, das heißt, in dem Fall wurde dann geschaut, wenn keine DDC zugeordnet ist, gibt es denn eine Sachgruppe und wenn diese Sachgruppe vorhanden ist, gab es ein Mapping von der
Sachgruppe auf die DDC und dann wurde das quasi auf diese Art und Weise noch zusammengefüllt, wenn es möglich ist. Und da hatten Sie ja auch gesehen, da sind dann trotzdem immer noch um die tausend drinnen, bei denen tatsächlich keine Zuordnung auf diese Art und Weise verfügbar war. Es gibt noch zusätzlich die Schwierigkeit, dass es auch einige Publikationen gibt, die dann
gar keine DDC-Nummer in dem passenden Feld eigentlich eingetragen haben, sondern tatsächlich die ausgeschriebene Sachgruppe dort drinnen steht. Auch da wurde dann nochmal bereinigt. Und dann natürlich gerade bei der Georeferenzierung der Publikationsorte und Hochschulen ist relativ viel Arbeit reingeflossen, weil das ja auch meistens, oder entsprechend nicht normierte Felder sind. Und gerade bei
den Hochschulschriften vermerken oder bei den Hochschulenangaben, ist es natürlich so, dass wir wirklich von Abkürzungen wie Uni Berlin oder ähnlichem über die komplett ausgeschriebenen offiziellen Namen so gut wie alles da drinnen haben und man dann eben häufig auch wirklich erstmal gucken muss, was ist
es denn eigentlich, welche Hochschule ist denn die, die Hochschule Mannheim oder ähnliches oder wie ist denn der eigentlich volle Name dieser Hochschule, damit man sie dann auch wieder passend überhaupt georeferenzieren kann und damit man das ganze auch disambigualieren kann, weil man sonst erstmal mit natürlich viel, viel mehr verschiedenen Strings, verschiedenen Angaben einfach endet für Hochschulen und
eben auch für die Publikationsorte als eigentlich dahinterstehen. Die Georeferenzierung ist dann hier auch nochmal, wie Sie vielleicht sehen, auf zwei verschiedene Arten angegangen worden, auch um das ein bisschen auszuprobieren. Das heißt, für die Publikationsorte haben wir dann mit die, also erstmal
das Ambiguiert zusammengeführt und dann quasi über die Reconciliation API von Lobbit das ganze mit Open Refine nochmal abglichen, zugeordnet zur passenden GND und dann wiederum die Georeferenzierung aus den GND-Datensätzen zu den Publikationsorten gezogen. Bei den Hochschulen ist es zum Teil auch gemacht worden, da ist aber noch ein
Zwischenschritt drin, dass quasi dann wirklich erstmal eben auch diese Hochschulbezeichnung nochmal gegen gecheckt worden sind mit einer Liste der HRK, dann mit Hochschulen, die überhaupt ein Promotionsrecht haben, also die eigentlich als überhaupt relevant hier auftauchende Hochschulen in Frage kommen, um dann eben zu gucken, wie ist deren offizielle Bezeichnung. Kann man die
Strings, die dann da drinstehen, also Uni Berlin quasi dann immer irgendwann frei zuordnen oder eben auch nicht und gerade bei Uni Berlin ist es natürlich wirklich ein bisschen schwierig, weil man nicht unbedingt weiß, ist es jetzt die Freie oder ist es die Humboldt, man kann es nicht genau sagen, da müssen dann auch manchmal tatsächlich Fragezeichen offen bleiben und
dann wurde eben bei den Hochschulnamen, wenn die einwandfrei identifiziert werden konnten, wurde dann eben nochmal mit Geopie auch einfach eine Georeferenzierung durchgeführt und zuletzt für die Sprachencodes wurde dann natürlich eben auch nochmal, das sind ja auch Codes, da wurde dann natürlich nochmal ein Mapping einfach auf die sprechende Bezeichnung vorgenommen, damit man das in der Visualisierung eben
dann auch schön lesen kann, was es eigentlich für Sprachen sind. Ja, damit habe ich auch schon ein bisschen was zu den Herausforderungen gesagt, also fehlerhafte Einträge gerade in den Feldern eben für die DDC sind natürlich eine Herausforderung, insgesamt für Freitextfelder natürlich eine Riesen Herausforderung, gerade eben wie gesagt die
Hochschulschriften vermerken, wenn wir da Daten rausziehen, weil wir eben zwischen diesen ganzen unterschiedlichen Schreibweisen für die verschiedenen Hochschulen, die ja auch ihren Namen zwischendurch zum Teil geändert haben, die abgekürzt worden sind, zum Teil halt tatsächlich auch einfach simple Tipp-Fehler drinnen haben, die dann einfach erst mal irgendwie extrahiert werden müssen, man muss gucken, was ist es
denn, wo liegt hier der Hasenpfeffer und kann ich das wieder irgendwie zurückführen. Das heißt, eine eindeutige Identifikation einiger Publikationsorte ist eben auch entsprechend teilweise wirklich schwierig möglich und ja die Hochschulen eben ebenfalls und dann ist zu guter Letzt halt auch die wachsende Größe des Datensetzes ein bisschen
eine Herausforderung, weil das im Moment wie gesagt so um die 325.000 Datensetz enthält und wenn man das auf einem Arbeitslaptop, den man zur Verfügung gestellt bekommen hat, laufen lässt, dann kommt es so langsam an den Punkt, an dem es ein bisschen in die Knie gehen möchte. Also das
ist dann auch nochmal eine Herausforderung und da ist gerade so ein bisschen die Überlegung, bislang habe ich das mit Pandas gemacht in Python, wer es kennt, dann eben vielleicht auf Polars zu wechseln, würde aber bedeuten, ja die ganzen Skripte nochmal quasi mehr oder weniger neu schreiben zu müssen. Potenziale des Ganzen sind dann eben natürlich
tatsächlich auch einfach Qualitätssicherung, weil es ist jetzt ja schon angeklungen, man findet einfach durch diese Art der Datenaufbereitung wahnsinnig viele Abweichungen, wahnsinnig viele Dinge, die vielleicht auch durchaus richtig sind, aber erstmal nicht mehr ganz ins Bild passen, aber man findet eben tatsächlich auch einfach simple Fehler und kann dann natürlich, gerade wenn man
immer die ID ändert, also die ID Nummer eben mitgenommen hat, dann relativ schnell auch einfach in den Datensatz gucken, was steht denn da irgendwie drin und kann man das vielleicht nicht irgendwie dann auch einfach korrigieren und auf der anderen Seite kann man natürlich auch einfach sich überlegen, diese Daten tatsächlich unvorbereitet einfach mal zu visualisieren, weil man auch dann natürlich sehr viele Fehler einfach direkt
sieht bei Dingen, die nicht dargestellt werden können oder eben bei Dingen, die bei der Georeferenzierung vielleicht ganz woanders landen, als sie eigentlich sein sollten, weil sie nicht passend zugeordnet werden können und auf der anderen Seite bekommt man eben ganz andere Einblicke damit einfach in diese großen Datenmengen, die man sonst natürlich so nicht hat. Wenn ich ja auf dieses XML, dieses
Datenabzugs gucke, dann sehe ich ja einfach nicht, was steckt da eigentlich drin, welche Jahreszahlen, welche Themen und so weiter. Das kann man eigentlich vor allem dann eben über solche Arten sehen und damit dann eben auch neue Anstöße einfach für alle möglichen Gebiete vielleicht auch entwickeln. Damit bin ich auch fast fertig.
Ausblick und Ideen. Das heißt also, man kann natürlich jetzt sowieso, ich habe es erwähnt, das Ganze ist experimentell und so ein bisschen eben bei entstanden. Man kann an diesen Skripten sicherlich auch noch feilen und da auch noch einige Verbesserungen vornehmen und Fehlerquellen minimieren. Das würde ich auch gerne tun. Man kann das Ganze natürlich auch noch in weitere
Visualisierungen erweitern. Eine Sache, die mir vorschwebt, ist halt auch einfach wirklich noch eine simple Wordcloud, die Häufigkeiten der meistgenutzten Wörter in den Titeln vielleicht einfach mal darstellt. Auch schön wäre noch ein der Automatisierung der Skripte. Im Moment sind das sieben einzelne Skripte, in denen ich das Datenset reinwerfe und dann wird das eben
durchgeklickt quasi, bis das alles irgendwie passiert ist und im Zweifel muss man dann halt auch alle vier Monate doch noch mal irgendwo was anpassen, weil es nicht mehr ganz so funktioniert, weil eine Bibliothek nicht mehr so will, was geändert wurde und so weiter. Aber wirklich schön wäre es natürlich auch diese Anwendung wirklich so auszubauen, dass man ein beliebiges
Mark-21-XML-Meter-Datenset nehmen kann, da quasi wirklich einfach reinwerft und das Ganze dann visualisiert wird. Das ist dann allerdings wieder ein bisschen die Herausforderung, wie man das dann hostet, dass das eben auch passenflüssig läuft und nicht dann im Zweifel, wenn ich da Millionen Datensetze reinwerfe, dass das dann irgendwie fünf Stunden läuft, bis da irgendwie mal was bei rauskommt.
Und zu guter Letzt könnte man eben auch andersrum dann überlegen, noch mal in welche Richtung man das entwickeln kann, um es eben tatsächlich gezielt für die Qualitätssicherung nutzen zu können, um eben diese ganzen Fehlerquellen oder Ausreißer dann quasi sehen und prüfen zu können. Genau, damit bin ich am Ende.
Hier sind noch mal ein bisschen die Links, also einmal auf die App, einmal aufs GitHub der Anwendung selbst. Und hier in dieser letzten, im letzten Link, da liegen im Moment tatsächlich auch noch mal diese Skripte, die sollen eigentlich auch noch in das GitHub der Anwendung selber. Das sind eben die Skripte, mit denen quasi das Datenset im Moment wirklich
verarbeitet wird. Und ich fürchte, ich habe keine Zeit mehr, Ihnen das zu zeigen. Frau Panik, wir müssen, wir müssen weiter fortschreiten. Ja, wir müssen weiter. Genau. Also wenn es Sie interessiert, dann schauen Sie da einfach noch mal rein. Ich lasse Ihnen zumindest den Link vielleicht gerade noch mal da, wenn das klappt.
Genau, dann können Sie sehen, ja, wie, wie aufwendig das zum Teil dann eben auch ist. Also war Sie gerade diese ganzen unterschiedlichen Schreibweisen der unterschiedlichen Hochschulen abzufangen. Vielen Dank.