Automatisierte Sacherschließung als Produktivverfahren für wissenschaftliche Bibliotheken - Herausforderungen, Lösungsansätze
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Serientitel | ||
Anzahl der Teile | 90 | |
Autor | ||
Mitwirkende | ||
Lizenz | CC-Namensnennung 3.0 Deutschland: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen. | |
Identifikatoren | 10.5446/36437 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache |
Inhaltliche Metadaten
Fachgebiet | ||
Genre | ||
Abstract |
| |
Schlagwörter |
#vBIB2041 / 90
3
8
11
30
32
37
47
54
59
60
66
82
00:00
Computeranimation
00:14
Computeranimation
00:53
Computeranimation
01:07
Computeranimation
01:22
Computeranimation
01:37
Computeranimation
02:11
Computeranimation
02:23
Computeranimation
02:39
Computeranimation
03:05
Computeranimation
03:18
Computeranimation
03:37
Computeranimation
04:06
Computeranimation
04:32
Flussdiagramm
05:19
Computeranimation
05:56
Diagramm
06:47
Computeranimation
07:04
Computeranimation
07:38
Computeranimation
08:06
Computeranimation
08:24
Computeranimation
08:44
Computeranimation
09:03
Computeranimation
09:39
Computeranimation
10:04
Computeranimation
10:37
Computeranimation
11:03
Computeranimation
11:16
Computeranimation
11:43
Computeranimation
12:03
Computeranimation
13:20
Computeranimation
13:33
Computeranimation
13:59
ComputeranimationFlussdiagramm
14:31
Computeranimation
15:18
Computeranimation
15:34
Computeranimation
16:08
Computeranimation
Transkript: Deutsch(automatisch erzeugt)
00:03
An der ZBW befassen wir uns im Moment mit der Automatisierung der Sache- schließung oder was heißt im Moment eigentlich schon sehr lange. Jetzt kann ich gerade nicht weitermachen, warum kann ich nicht weitermachen? Ah, sehr gut. Genau, und an der ZBW ist es schon seit einigen Jahren
00:23
so, dass es einen fest im Bibliotheksbereich etablierten wissenschaftlichen Mitarbeiter bzw. Doktoranden gibt, der eben im Rahmen seiner wissenschaftlichen Tätigkeit Machine Learning Methoden für eine automatisierte Sache- erschließung entwickelt und das hat eigentlich auch schon ganz gut Früchte getragen. Allerdings ist es naturgemäß natürlich
00:41
trotzdem so, dass derjenige erstmal primär ausprobieren wollte, ob und wie gut die verschiedenen Methoden funktionieren und der Fokus lag da noch weniger darauf, wie genau man das dann auch tatsächlich fest mit den sonstigen Erschließungs- und Metadatenmanagement-Abläufen im Haus verdrahten kann, so dass man es auch wirklich tagtäglich benutzen
01:01
kann, auch als wissenschaftlicher Referent. Und an dem Punkt stehen wir eben jetzt, das ist ein sehr spannender Punkt. Und ganz kurz nochmal, intellektuelle Inhaltserschließung an der ZBW läuft bei uns wie in fast allen anderen Häusern auch. Also der Referent oder die Referentin hat ein Dokument, er holt oder generiert sich einen Metadatensatz dazu, hat
01:22
natürlich sein Domänenwissen im Kopf, das kristallisiert sich in einem kontrollierten Vokabular, in unserem Fall dem Standard des Saures Wirtschaft und erschließt damit eben die Ressource und mit diesen Daten wird dann unser Discovery-System, was bei uns ECONBIS heißt, befeuert. Genau. Und um jetzt nochmal die Geschichte zu rekapitulieren, da erzähle
01:42
ich natürlich auch nur vom Hörnsagen, weil ich noch nicht so lange an der ZBW bin, aber der Gedanke, die Sacherschließung zu automatisieren, kam schon um die Jahrtausendwende auf und da gab es schon ein DFG-Projekt mit der Uni des Saarlandes und da kam auch ein erster Prototyp raus. Der war allerdings geschaffen worden für ein System, was dann später den
02:00
Kürzeren gezogen hat, als die beiden Häuser zu der jetzigen ZBW zusammen geführt wurden. Das waren vorher zwei getrennte Häuser. Als Nächstes hat man sich dann in einem internen Projekt mit kommerziellen Lösungen befasst und hat da auch eine rausgegriffen, allerdings kam man da anscheinend auch zum Schluss, dass es immer noch nicht wirklich
02:22
in der Praxis einsetzbar ist und entsprechend gab es dann auch eine Phase der Neuorientierung, wo man sich dann wirklich mal überlegt hat, was brauchen wir denn eigentlich wirklich, damit es in der Praxis auch benutzbar ist und hat sich dann aus meiner Sicht einen relativ spektakulären Plan formuliert, nämlich wir machen das selber in
02:41
Haus als Open Source Software from scratch sozusagen und das war das Projekt Autoindex, wo dann eben diese Machine Learning Methoden entwickelt wurden, die ich vorher erwähnt habe und 2018, Ende 2018 ging aber sowohl der damalige Projektleiter und da habe ich dann die Leitung
03:01
übernommen und auch der Doktorand, der damals da war, war dann fertig und dann haben wir das Ganze umbenannt in Auto SE und angefangen und Mitte des Jahres habe ich dann auch unseren neuen wissenschaftlichen Mitarbeiter Moritz Finneisen, der hier auch als Co-Autor dabei ist, dazugeholt. So und also in diesem Vorläuferprojekt, was bis 2018
03:22
gelaufen ist, sind schon einige Errungenschaften gewonnen worden, also man hat einen Ansatz entwickelt, der mehrere Machine Learning Methoden quasi gegeneinander antreten lässt und dann in einem regelbasierten Ansatz kombiniert und da man ja doch immer zu wenig Volltexte
03:42
zur Verfügung hat, haben wir das auf die Metadaten aufgesetzt, auf die Textschnipsel, die man in Metadaten findet, also Titel und dann wurde mit dem Code, den der damalige Doktorand eben entwickelt hat, von Hand in unregelmäßigen Abständen eben einen Datenabzug gemacht und das
04:00
durch diese Methoden gejagt und die dann evaluiert und eingespielt und was den Doktoranden damals besonders interessiert hat als Forschungsthemen, die auch für uns noch interessant sind, ist einmal Concept Drift, also einerseits kommen neue Begriffe auf, andererseits können alte Terme ihre Bedeutung wandeln und das andere, was auch sehr interessant ist, kann ich vorab schon abschätzen, wie gut sich ein Dokument oder ein
04:23
Metadatensatz überhaupt für eine Methode eignet oder kann ich die vorher schon weiter aussortieren und anderen Menschen umleiten? Genau, und das war auch die Folie, die der Doktorand immer benutzt hat, um seinen Ansatz zu erklären, also man nimmt das Dokument, schickt es durch verschiedene Sorten von Verfahren, also da gibt es zwei
04:44
Kategorien gab es in dem Fall, die Assoziativen, das sind solche, die sich nur auf Dinge berufen, die sie in den Trainingsdokumenten gelernt haben und die lexikalischen, die dann auch Informationen zum Beispiel aus dem Thesaurus hinzuziehen, die werden dann in einem Ansatz kombiniert und da gibt es dann zusätzliche Regeln, wie zum
05:02
Beispiel ein Deskripto muss mindestens von zwei Verfahren vorgeschlagen werden und das Ergebnis für ein Dokument kommt überhaupt nur durch, wenn es zwei Deskriptoren aus unseren Kernsubthesauri, also für VWL und BWL enthält und nicht nur irgendwelche allgemeinen Wörter. Und das wurde dann in einem
05:21
selbst programmierten Interface auch den Referenten und Referentinnen vorgelegt zur Evaluierung oder eine kleine Stichprobe davon, die konnten da eben Titel, Keywords, Abstract und es gab auch ein Link zum Volltext sehen und konnten da eben beurteilen, wie gut sie die einzelnen Deskriptoren finden, konnten welche hinzufügen, wenn ihnen
05:41
welche gefehlt haben, konnten aber auch auf Dokumentlevel sagen, das Gesamtpaket an Deskriptoren gefällt mir so oder gefällt mir so nicht so gut und wir haben das noch einmal durchgezogen mit den Methoden, die wir übernommen haben von dem vorigen Team sozusagen und da kam raus, dass fast drei Viertel der Deskriptoren im Einzelnen
06:02
gesehen als sehr hilfreich oder hilfreich eingestuft wurden. Allerdings konnte man auch sehen, dass die Referenten oft das Bedürfnis hatten, noch weiterhin zuzufügen. Das heißt, die Gesamtheit an Deskriptoren, die da von der Maschine vergeben wurden, war teilweise noch nicht spezifisch genug und da sind wir eben jetzt
06:20
dran, verschiedene Ansätze auszuprobieren, um das weiter zu optimieren, auch mit neuen Methoden, zum Beispiel haben wir mit neuen Algorithmen wie Omikuji experimentiert und gleich festgestellt, dass der schon alleine besser ist als der ganze Fusion-Ansatz vorher. Ist natürlich ein interessantes Ergebnis und jetzt fangen wir natürlich auch an mit neuronalen Netzen. Da sage ich gleich
06:41
noch ein bisschen was dazu. Und das klingt jetzt alles erst mal so einfach, aber es gibt da wahnsinnig viele Herausforderungen, auf die gehe ich jetzt auch nur kurz ein. Die habe ich mal im Vortrag im Januar in Berlin aus fröhlicher vorgestellt. Das Problem ist, die Arbeitsabläufe in den meisten Bibliotheken sind
07:01
noch nicht darauf optimiert, die textuellen Materialien, die wir brauchen, auch wirklich in die Metadatensätze einzupflegen und erst recht nicht so, dass sie auch maschinenlesbar sind. Wir bräuchten eigentlich alles typisiert nach Sprache zum Beispiel. Und umgekehrt, wenn wir dann maschinelle Abläufe vor sich gegangen sind, fehlen teilweise eben auch
07:22
noch die Unterfelder, um die ganzen Angaben dazu zu erfassen, also Konfidenzwerte et cetera. Also an einigen Stellen gibt es das schon, aber dieser ganze Wandel muss noch vollzogen werden. Da sind wir noch mittendrin. Das ist eine jetzt aber im Moment. Also unser wissenschaftlicher
07:42
Mitarbeiter Moritz Fürneisen ist da dran, jetzt auch mit neuronalen Netzen anzufangen. Und es ist ja bekannt, dass die Blödingverfahren gerade auch in der Facharbeitung ganz gut abschneiden. Und es gibt, damit man das nicht selber machen muss, auch fortrennierte Modelle zur Verfügung. Zum Beispiel Börd von Google. Das trainiert
08:02
auf Quellen wie Wikipedia, auf Volltexten. Und wir fangen natürlich an mit diesen Verfahren und vergleichen sie dann mit allem, was wir vorher hatten, also die assoziativen und lexikalischen Verfahren, beziehungsweise auch mit erst mal ganz simplen Ansätzen, wo man neuronales Netzwerk hat mit ein, zwei, drei
08:20
Schichten höchstens und mit TF-IDF Features. Und dabei ist ihm aber aufgefallen, dass die Modelle, so wie man sie bekommt, weil sie auf Volltexten trainiert sind, bei uns anscheinend noch nicht so gute Ergebnisse liefern. Deswegen wäre der nächste Schritt natürlich, dass wir unsere Eigensprachmodelle trainieren spezifisch auf diese Textschnipsel, die wir in den Metadatensätzen finden, damit wir auch
08:42
bessere Ergebnisse bekommen. Genau. Und jetzt komme ich zum Hauptpunkt dieses Vortrags. Das ist alles schön und gut und spektakulär. Nur bringt das überhaupt nichts, solange es nicht benutzbar ist für unsere Referentinnen und Referenten im Alltag. Es ist noch nicht verzahnt mit den
09:01
Erschließungsabläufen sonst. Das heißt, wir müssen diese Lösung benutzbar machen. Und das erste, was wir getan haben, das war mir wirklich wichtig, war, dieses Konzept Projekt abzuschaffen. Weil für mich ist Automatisierung der Sacherschließung ist so eine große Sache. Das ist ein Wandel, der wird uns viele Jahre
09:20
beschäftigen und es wird auch immer neue Aspekte davon geben und zu sagen, Projekt gibt bei mir so den Eindruck, ja, das kriegen wir mal mit so einer Hauruck-Aktion im Dreijahreszeitraum hin und dann ist es gegessen. Deswegen fand ich das wichtig, zu sagen, wir müssen das als Daueraufgabe anerkennen und dem wurde dann auch stattgegeben und ganz konkret ist Folgendes passiert, dass
09:41
wir dann tatsächlich einen weiteren Softwareentwickler einstellen durften, um Autos eher als produktiven Dienst zu entwickeln und das aber erst mal in einer zweijährigen Übergangsphase, die jetzt beginnt, also dass wir uns ganz genau anschauen, was sind die Schritte, die wir unternehmen müssen?
10:00
Was sind die Herausforderungen und wie überwinden wir die? Genau. Und das ist überhaupt ein interessantes Thema, weil wir haben, wie die TEB auch an der ZBW ja auch noch weitere Forschungsvorgänge und es ist immer eine interessante Frage in so einer Infrastruktureinrichtung, wie wir sie einessen, wie wir diese prototypische
10:22
Software, die da rauskommt, eben wirklich benutzbar machen für unsere sonstigen Vorgänge und damit befasst sich insbesondere auch die IT- Entwicklungsabteilung, deren Leiter Timo Borst hier ja auch mit eingereicht hat als Co-Autor. Und das Problem mit Prototypen ist natürlich, die sind meistens darauf
10:41
optimiert, dass man eben versucht, eine Methode auszuprobieren oder einen Gedanken, aber das heißt, es sind noch keine runden Pakete bezüglich Funktionalität oder Usability, sind nicht durchgetestet und besonders wichtig sind halt nicht verzahnt mit den sonstigen Abläufen, sodass sie de facto nicht benutzbar sind und nicht angekommen sind in der Praxis,
11:02
sozusagen. Und da ist Auto-SE zugegebenermaßen sehr komplexes Beispiel, aber eigentlich auch ein sehr schönes Beispiel, weil wenn das gelingt, dann haben wir ein ziemlich gutes Modell für einen gelungenen Forschungstransfer. Genau. Aber um jetzt nochmal die Gemengelage darzustellen, in der
11:21
wir uns befinden, das ist nämlich alles nochmal ein bisschen komplexer, wie auf der ersten Folie, die ungefähr so aussah, die ich gezeigt habe. Und zwar ist es weiterhin so, wie in anderen Häusern auch, also bei der intellektuellen Sacherschließung holen sich die Referenten die Metadatensätze aus dem Verbund Katalog, also über die Winibw im Moment, erschließen dann und schreiben das zurück. Also das ist
11:41
ein Vorgang. Dann wird die ECONBIS, also ECONBIS wird nicht direkt aus dem Verbund Katalog befeuert, sondern da gibt es erst mal einen Abzug, der wird dann weiter angereichtert, auch mit Handles für die URLs et cetera. Und daraus wird es dann befeuert. So. Jetzt ist es aber bisher so, dass
12:01
die maschinellen Verfahren, die wir hatten, auch die prototypischen, haben sich direkt aus der ECONBIS Datenbasis bedient, dann erschlossen, dass da zurückgeschrieben und die sind in der ECONBIS auch schon zu sehen. Es wird aber im Moment noch nicht in den Verbund Katalog zurückgespielt, weil da die ganzen Vorgänge sind noch nicht richtig etabliert. Wir haben noch kein
12:21
richtiges Batch Verfahren, wie wir mit solchen automatisiert erstellten Metadaten Metadatensätze anreichern können. Und wie gesagt, wie ich vorher auch gesagt hatte, es gibt die entsprechenden Unterfelder vielleicht nicht, die wir da, wo wir dann zum Beispiel unsere Qualitätsmerkmale dazu schreiben müssten, et cetera. Und jetzt kommt noch ein neuer
12:40
Player aufs Spielfeld. Wie andere Institutionen auch überlegen wir uns gerade, ob wir die Sacherschließung in Zukunft über den digitalen Assistenten laufen lassen. Digitaler Assistent ist ja dafür gedacht, dass man fremde Sacherschließung sich anzeigt, um sich inspirieren zu lassen und die eigene Sacherschließung damit zu machen.
13:01
Aber wir haben gedacht, na ja, das wäre ja mal eine Gelegenheit zu sagen, wir wir bezeichnen uns einfach als eine weitere Fremddatenquelle und bedienen den digitalen Assistenten mit unseren Vorschlägen. Und auch das will erst mal umgesetzt sein, weil wir für den digitalen Assistenten eine relativ ungewöhnliche Quelle sind. Aber das ist das erste, was wir
13:21
gerade machen. Also wir bauen eine minimale Architektur auf mit den Ressourcen, die wir im Moment haben, die den digitalen Assistenten bedient. Und diese Anbindung ist tatsächlich auch schon realisiert. Das ist jetzt allerdings die Testinstanz des digitalen Assistenten für den K10 Plus. Aber da sind wir schon zu sehen
13:41
da unten mit den automatisch erstellten Deskriptoren. Und darüber sieht man übrigens diese GND Deskriptoren sind generiert über eine Konkordanz, die bei uns an der ZBW zwischen STW und GND manuell gepflegt wird. Das ist schon da und das sieht im Hintergrund so aus.
14:01
Also wir haben den Learning Controller, der guckt jede Stunde mal nach, ob ein neuer Metadatensatz aufgetaucht ist für eine Ressource. Wenn das der Fall ist, dann schickt das da unten nach Suggestion Service. Da passiert quasi die Magie. Da wird verschlagwortet mit der Maschine und holt es zurück, schickt es
14:21
dann an den Suggestion Manager, der speichert es zwischen. Und von da gibt es dann eben auch die Schnittstelle zum DA3. Genau. So und die aktuellen Aktivitäten, die wir sonst noch so betreiben, ist wir müssen jetzt also ernsthaft den Produktivbetrieb
14:40
vorbereiten. Das heißt insbesondere, dass wir uns Gedanken machen über die Ressourcen, die wir brauchen. Wir haben relativ ehrgeizig eben vor, dass man also wir wollen unsere Methoden immer weiterentwickeln und wollen dann aber auch quasi ein produktives Training von Komponenten haben, wo man quasi neben dem laufenden Betrieb her Komponenten
15:00
fit machen kann für den Betrieb und die dann in den Betrieb rein drehen kann, möglichst ohne dass der Betrieb abgebrochen werden muss. Und dafür brauchen wir erst mal also fürs Trainieren braucht man sehr viel Rechenkraft. Da werden wir wahrscheinlich eine externe Lösung haben. Aber für dieses für alles andere
15:21
drumherum, also dieses Verwalten der Komponenten, der Updates, Backup und dieses Austauschen brauchen wir eben dann auch die entsprechende Ressourcen im Haus, also Server. Das ist also Produktivbetrieb und neben allemher läuft natürlich die wissenschaftliche Weiterentwicklung der Methoden weiter. Und auch da brauchen
15:41
wir für das Training und für die Experimente, weil wir haben jetzt angefangen mit neuronalen Netzen und das braucht auch sehr viel mehr Rechenkraft. Als vorher brauchen wir ebenfalls High Performance Computing Ressourcen und all das quasi in den Ablauf zu kriegen. Der passt und der sich auch langfristig etablieren kann
16:00
als als modellhafte Ablauf, sozusagen. Das ist die große Herausforderung, die wir jetzt angehen wollen. Das war mein Vortrag. Hier sind noch ein paar Referenzen und wir sind zu erreichen unter den untenstehenden Kontaktdaten. Die Telefonnummer funktioniert auch, die ist umgeleitet und wir sind natürlich jetzt und
16:20
nachher noch zu erreichen. Vielen Dank.