We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Automatisierte Sacherschließung als Produktivverfahren für wissenschaftliche Bibliotheken - Herausforderungen, Lösungsansätze

00:00

Formale Metadaten

Titel
Automatisierte Sacherschließung als Produktivverfahren für wissenschaftliche Bibliotheken - Herausforderungen, Lösungsansätze
Serientitel
Anzahl der Teile
90
Autor
Mitwirkende
Lizenz
CC-Namensnennung 3.0 Deutschland:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache

Inhaltliche Metadaten

Fachgebiet
Genre
Abstract
An der ZBW werden die fortlaufend für die Automatisierung der Sacherschließung erarbeiteten Machine-Learning-Methoden nun in einen zukunftsfähigen Produktivbetrieb überführt. Ein Werkstattbericht.
Schlagwörter
66
Vorschaubild
22:52
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Flussdiagramm
Computeranimation
Diagramm
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Computeranimation
ComputeranimationFlussdiagramm
Computeranimation
Computeranimation
Computeranimation
Computeranimation
Transkript: Deutsch(automatisch erzeugt)
An der ZBW befassen wir uns im Moment mit der Automatisierung der Sache- schließung oder was heißt im Moment eigentlich schon sehr lange. Jetzt kann ich gerade nicht weitermachen, warum kann ich nicht weitermachen? Ah, sehr gut. Genau, und an der ZBW ist es schon seit einigen Jahren
so, dass es einen fest im Bibliotheksbereich etablierten wissenschaftlichen Mitarbeiter bzw. Doktoranden gibt, der eben im Rahmen seiner wissenschaftlichen Tätigkeit Machine Learning Methoden für eine automatisierte Sache- erschließung entwickelt und das hat eigentlich auch schon ganz gut Früchte getragen. Allerdings ist es naturgemäß natürlich
trotzdem so, dass derjenige erstmal primär ausprobieren wollte, ob und wie gut die verschiedenen Methoden funktionieren und der Fokus lag da noch weniger darauf, wie genau man das dann auch tatsächlich fest mit den sonstigen Erschließungs- und Metadatenmanagement-Abläufen im Haus verdrahten kann, so dass man es auch wirklich tagtäglich benutzen
kann, auch als wissenschaftlicher Referent. Und an dem Punkt stehen wir eben jetzt, das ist ein sehr spannender Punkt. Und ganz kurz nochmal, intellektuelle Inhaltserschließung an der ZBW läuft bei uns wie in fast allen anderen Häusern auch. Also der Referent oder die Referentin hat ein Dokument, er holt oder generiert sich einen Metadatensatz dazu, hat
natürlich sein Domänenwissen im Kopf, das kristallisiert sich in einem kontrollierten Vokabular, in unserem Fall dem Standard des Saures Wirtschaft und erschließt damit eben die Ressource und mit diesen Daten wird dann unser Discovery-System, was bei uns ECONBIS heißt, befeuert. Genau. Und um jetzt nochmal die Geschichte zu rekapitulieren, da erzähle
ich natürlich auch nur vom Hörnsagen, weil ich noch nicht so lange an der ZBW bin, aber der Gedanke, die Sacherschließung zu automatisieren, kam schon um die Jahrtausendwende auf und da gab es schon ein DFG-Projekt mit der Uni des Saarlandes und da kam auch ein erster Prototyp raus. Der war allerdings geschaffen worden für ein System, was dann später den
Kürzeren gezogen hat, als die beiden Häuser zu der jetzigen ZBW zusammen geführt wurden. Das waren vorher zwei getrennte Häuser. Als Nächstes hat man sich dann in einem internen Projekt mit kommerziellen Lösungen befasst und hat da auch eine rausgegriffen, allerdings kam man da anscheinend auch zum Schluss, dass es immer noch nicht wirklich
in der Praxis einsetzbar ist und entsprechend gab es dann auch eine Phase der Neuorientierung, wo man sich dann wirklich mal überlegt hat, was brauchen wir denn eigentlich wirklich, damit es in der Praxis auch benutzbar ist und hat sich dann aus meiner Sicht einen relativ spektakulären Plan formuliert, nämlich wir machen das selber in
Haus als Open Source Software from scratch sozusagen und das war das Projekt Autoindex, wo dann eben diese Machine Learning Methoden entwickelt wurden, die ich vorher erwähnt habe und 2018, Ende 2018 ging aber sowohl der damalige Projektleiter und da habe ich dann die Leitung
übernommen und auch der Doktorand, der damals da war, war dann fertig und dann haben wir das Ganze umbenannt in Auto SE und angefangen und Mitte des Jahres habe ich dann auch unseren neuen wissenschaftlichen Mitarbeiter Moritz Finneisen, der hier auch als Co-Autor dabei ist, dazugeholt. So und also in diesem Vorläuferprojekt, was bis 2018
gelaufen ist, sind schon einige Errungenschaften gewonnen worden, also man hat einen Ansatz entwickelt, der mehrere Machine Learning Methoden quasi gegeneinander antreten lässt und dann in einem regelbasierten Ansatz kombiniert und da man ja doch immer zu wenig Volltexte
zur Verfügung hat, haben wir das auf die Metadaten aufgesetzt, auf die Textschnipsel, die man in Metadaten findet, also Titel und dann wurde mit dem Code, den der damalige Doktorand eben entwickelt hat, von Hand in unregelmäßigen Abständen eben einen Datenabzug gemacht und das
durch diese Methoden gejagt und die dann evaluiert und eingespielt und was den Doktoranden damals besonders interessiert hat als Forschungsthemen, die auch für uns noch interessant sind, ist einmal Concept Drift, also einerseits kommen neue Begriffe auf, andererseits können alte Terme ihre Bedeutung wandeln und das andere, was auch sehr interessant ist, kann ich vorab schon abschätzen, wie gut sich ein Dokument oder ein
Metadatensatz überhaupt für eine Methode eignet oder kann ich die vorher schon weiter aussortieren und anderen Menschen umleiten? Genau, und das war auch die Folie, die der Doktorand immer benutzt hat, um seinen Ansatz zu erklären, also man nimmt das Dokument, schickt es durch verschiedene Sorten von Verfahren, also da gibt es zwei
Kategorien gab es in dem Fall, die Assoziativen, das sind solche, die sich nur auf Dinge berufen, die sie in den Trainingsdokumenten gelernt haben und die lexikalischen, die dann auch Informationen zum Beispiel aus dem Thesaurus hinzuziehen, die werden dann in einem Ansatz kombiniert und da gibt es dann zusätzliche Regeln, wie zum
Beispiel ein Deskripto muss mindestens von zwei Verfahren vorgeschlagen werden und das Ergebnis für ein Dokument kommt überhaupt nur durch, wenn es zwei Deskriptoren aus unseren Kernsubthesauri, also für VWL und BWL enthält und nicht nur irgendwelche allgemeinen Wörter. Und das wurde dann in einem
selbst programmierten Interface auch den Referenten und Referentinnen vorgelegt zur Evaluierung oder eine kleine Stichprobe davon, die konnten da eben Titel, Keywords, Abstract und es gab auch ein Link zum Volltext sehen und konnten da eben beurteilen, wie gut sie die einzelnen Deskriptoren finden, konnten welche hinzufügen, wenn ihnen
welche gefehlt haben, konnten aber auch auf Dokumentlevel sagen, das Gesamtpaket an Deskriptoren gefällt mir so oder gefällt mir so nicht so gut und wir haben das noch einmal durchgezogen mit den Methoden, die wir übernommen haben von dem vorigen Team sozusagen und da kam raus, dass fast drei Viertel der Deskriptoren im Einzelnen
gesehen als sehr hilfreich oder hilfreich eingestuft wurden. Allerdings konnte man auch sehen, dass die Referenten oft das Bedürfnis hatten, noch weiterhin zuzufügen. Das heißt, die Gesamtheit an Deskriptoren, die da von der Maschine vergeben wurden, war teilweise noch nicht spezifisch genug und da sind wir eben jetzt
dran, verschiedene Ansätze auszuprobieren, um das weiter zu optimieren, auch mit neuen Methoden, zum Beispiel haben wir mit neuen Algorithmen wie Omikuji experimentiert und gleich festgestellt, dass der schon alleine besser ist als der ganze Fusion-Ansatz vorher. Ist natürlich ein interessantes Ergebnis und jetzt fangen wir natürlich auch an mit neuronalen Netzen. Da sage ich gleich
noch ein bisschen was dazu. Und das klingt jetzt alles erst mal so einfach, aber es gibt da wahnsinnig viele Herausforderungen, auf die gehe ich jetzt auch nur kurz ein. Die habe ich mal im Vortrag im Januar in Berlin aus fröhlicher vorgestellt. Das Problem ist, die Arbeitsabläufe in den meisten Bibliotheken sind
noch nicht darauf optimiert, die textuellen Materialien, die wir brauchen, auch wirklich in die Metadatensätze einzupflegen und erst recht nicht so, dass sie auch maschinenlesbar sind. Wir bräuchten eigentlich alles typisiert nach Sprache zum Beispiel. Und umgekehrt, wenn wir dann maschinelle Abläufe vor sich gegangen sind, fehlen teilweise eben auch
noch die Unterfelder, um die ganzen Angaben dazu zu erfassen, also Konfidenzwerte et cetera. Also an einigen Stellen gibt es das schon, aber dieser ganze Wandel muss noch vollzogen werden. Da sind wir noch mittendrin. Das ist eine jetzt aber im Moment. Also unser wissenschaftlicher
Mitarbeiter Moritz Fürneisen ist da dran, jetzt auch mit neuronalen Netzen anzufangen. Und es ist ja bekannt, dass die Blödingverfahren gerade auch in der Facharbeitung ganz gut abschneiden. Und es gibt, damit man das nicht selber machen muss, auch fortrennierte Modelle zur Verfügung. Zum Beispiel Börd von Google. Das trainiert
auf Quellen wie Wikipedia, auf Volltexten. Und wir fangen natürlich an mit diesen Verfahren und vergleichen sie dann mit allem, was wir vorher hatten, also die assoziativen und lexikalischen Verfahren, beziehungsweise auch mit erst mal ganz simplen Ansätzen, wo man neuronales Netzwerk hat mit ein, zwei, drei
Schichten höchstens und mit TF-IDF Features. Und dabei ist ihm aber aufgefallen, dass die Modelle, so wie man sie bekommt, weil sie auf Volltexten trainiert sind, bei uns anscheinend noch nicht so gute Ergebnisse liefern. Deswegen wäre der nächste Schritt natürlich, dass wir unsere Eigensprachmodelle trainieren spezifisch auf diese Textschnipsel, die wir in den Metadatensätzen finden, damit wir auch
bessere Ergebnisse bekommen. Genau. Und jetzt komme ich zum Hauptpunkt dieses Vortrags. Das ist alles schön und gut und spektakulär. Nur bringt das überhaupt nichts, solange es nicht benutzbar ist für unsere Referentinnen und Referenten im Alltag. Es ist noch nicht verzahnt mit den
Erschließungsabläufen sonst. Das heißt, wir müssen diese Lösung benutzbar machen. Und das erste, was wir getan haben, das war mir wirklich wichtig, war, dieses Konzept Projekt abzuschaffen. Weil für mich ist Automatisierung der Sacherschließung ist so eine große Sache. Das ist ein Wandel, der wird uns viele Jahre
beschäftigen und es wird auch immer neue Aspekte davon geben und zu sagen, Projekt gibt bei mir so den Eindruck, ja, das kriegen wir mal mit so einer Hauruck-Aktion im Dreijahreszeitraum hin und dann ist es gegessen. Deswegen fand ich das wichtig, zu sagen, wir müssen das als Daueraufgabe anerkennen und dem wurde dann auch stattgegeben und ganz konkret ist Folgendes passiert, dass
wir dann tatsächlich einen weiteren Softwareentwickler einstellen durften, um Autos eher als produktiven Dienst zu entwickeln und das aber erst mal in einer zweijährigen Übergangsphase, die jetzt beginnt, also dass wir uns ganz genau anschauen, was sind die Schritte, die wir unternehmen müssen?
Was sind die Herausforderungen und wie überwinden wir die? Genau. Und das ist überhaupt ein interessantes Thema, weil wir haben, wie die TEB auch an der ZBW ja auch noch weitere Forschungsvorgänge und es ist immer eine interessante Frage in so einer Infrastruktureinrichtung, wie wir sie einessen, wie wir diese prototypische
Software, die da rauskommt, eben wirklich benutzbar machen für unsere sonstigen Vorgänge und damit befasst sich insbesondere auch die IT- Entwicklungsabteilung, deren Leiter Timo Borst hier ja auch mit eingereicht hat als Co-Autor. Und das Problem mit Prototypen ist natürlich, die sind meistens darauf
optimiert, dass man eben versucht, eine Methode auszuprobieren oder einen Gedanken, aber das heißt, es sind noch keine runden Pakete bezüglich Funktionalität oder Usability, sind nicht durchgetestet und besonders wichtig sind halt nicht verzahnt mit den sonstigen Abläufen, sodass sie de facto nicht benutzbar sind und nicht angekommen sind in der Praxis,
sozusagen. Und da ist Auto-SE zugegebenermaßen sehr komplexes Beispiel, aber eigentlich auch ein sehr schönes Beispiel, weil wenn das gelingt, dann haben wir ein ziemlich gutes Modell für einen gelungenen Forschungstransfer. Genau. Aber um jetzt nochmal die Gemengelage darzustellen, in der
wir uns befinden, das ist nämlich alles nochmal ein bisschen komplexer, wie auf der ersten Folie, die ungefähr so aussah, die ich gezeigt habe. Und zwar ist es weiterhin so, wie in anderen Häusern auch, also bei der intellektuellen Sacherschließung holen sich die Referenten die Metadatensätze aus dem Verbund Katalog, also über die Winibw im Moment, erschließen dann und schreiben das zurück. Also das ist
ein Vorgang. Dann wird die ECONBIS, also ECONBIS wird nicht direkt aus dem Verbund Katalog befeuert, sondern da gibt es erst mal einen Abzug, der wird dann weiter angereichtert, auch mit Handles für die URLs et cetera. Und daraus wird es dann befeuert. So. Jetzt ist es aber bisher so, dass
die maschinellen Verfahren, die wir hatten, auch die prototypischen, haben sich direkt aus der ECONBIS Datenbasis bedient, dann erschlossen, dass da zurückgeschrieben und die sind in der ECONBIS auch schon zu sehen. Es wird aber im Moment noch nicht in den Verbund Katalog zurückgespielt, weil da die ganzen Vorgänge sind noch nicht richtig etabliert. Wir haben noch kein
richtiges Batch Verfahren, wie wir mit solchen automatisiert erstellten Metadaten Metadatensätze anreichern können. Und wie gesagt, wie ich vorher auch gesagt hatte, es gibt die entsprechenden Unterfelder vielleicht nicht, die wir da, wo wir dann zum Beispiel unsere Qualitätsmerkmale dazu schreiben müssten, et cetera. Und jetzt kommt noch ein neuer
Player aufs Spielfeld. Wie andere Institutionen auch überlegen wir uns gerade, ob wir die Sacherschließung in Zukunft über den digitalen Assistenten laufen lassen. Digitaler Assistent ist ja dafür gedacht, dass man fremde Sacherschließung sich anzeigt, um sich inspirieren zu lassen und die eigene Sacherschließung damit zu machen.
Aber wir haben gedacht, na ja, das wäre ja mal eine Gelegenheit zu sagen, wir wir bezeichnen uns einfach als eine weitere Fremddatenquelle und bedienen den digitalen Assistenten mit unseren Vorschlägen. Und auch das will erst mal umgesetzt sein, weil wir für den digitalen Assistenten eine relativ ungewöhnliche Quelle sind. Aber das ist das erste, was wir
gerade machen. Also wir bauen eine minimale Architektur auf mit den Ressourcen, die wir im Moment haben, die den digitalen Assistenten bedient. Und diese Anbindung ist tatsächlich auch schon realisiert. Das ist jetzt allerdings die Testinstanz des digitalen Assistenten für den K10 Plus. Aber da sind wir schon zu sehen
da unten mit den automatisch erstellten Deskriptoren. Und darüber sieht man übrigens diese GND Deskriptoren sind generiert über eine Konkordanz, die bei uns an der ZBW zwischen STW und GND manuell gepflegt wird. Das ist schon da und das sieht im Hintergrund so aus.
Also wir haben den Learning Controller, der guckt jede Stunde mal nach, ob ein neuer Metadatensatz aufgetaucht ist für eine Ressource. Wenn das der Fall ist, dann schickt das da unten nach Suggestion Service. Da passiert quasi die Magie. Da wird verschlagwortet mit der Maschine und holt es zurück, schickt es
dann an den Suggestion Manager, der speichert es zwischen. Und von da gibt es dann eben auch die Schnittstelle zum DA3. Genau. So und die aktuellen Aktivitäten, die wir sonst noch so betreiben, ist wir müssen jetzt also ernsthaft den Produktivbetrieb
vorbereiten. Das heißt insbesondere, dass wir uns Gedanken machen über die Ressourcen, die wir brauchen. Wir haben relativ ehrgeizig eben vor, dass man also wir wollen unsere Methoden immer weiterentwickeln und wollen dann aber auch quasi ein produktives Training von Komponenten haben, wo man quasi neben dem laufenden Betrieb her Komponenten
fit machen kann für den Betrieb und die dann in den Betrieb rein drehen kann, möglichst ohne dass der Betrieb abgebrochen werden muss. Und dafür brauchen wir erst mal also fürs Trainieren braucht man sehr viel Rechenkraft. Da werden wir wahrscheinlich eine externe Lösung haben. Aber für dieses für alles andere
drumherum, also dieses Verwalten der Komponenten, der Updates, Backup und dieses Austauschen brauchen wir eben dann auch die entsprechende Ressourcen im Haus, also Server. Das ist also Produktivbetrieb und neben allemher läuft natürlich die wissenschaftliche Weiterentwicklung der Methoden weiter. Und auch da brauchen
wir für das Training und für die Experimente, weil wir haben jetzt angefangen mit neuronalen Netzen und das braucht auch sehr viel mehr Rechenkraft. Als vorher brauchen wir ebenfalls High Performance Computing Ressourcen und all das quasi in den Ablauf zu kriegen. Der passt und der sich auch langfristig etablieren kann
als als modellhafte Ablauf, sozusagen. Das ist die große Herausforderung, die wir jetzt angehen wollen. Das war mein Vortrag. Hier sind noch ein paar Referenzen und wir sind zu erreichen unter den untenstehenden Kontaktdaten. Die Telefonnummer funktioniert auch, die ist umgeleitet und wir sind natürlich jetzt und
nachher noch zu erreichen. Vielen Dank.