Mensch-Maschine-Interaktion bei digSubmission Application für den automatischen pre-Ingest und Ingest
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Serientitel | ||
Anzahl der Teile | 21 | |
Autor | 0000-0002-9316-8982 (ORCID) | |
Lizenz | CC-Namensnennung 3.0 Deutschland: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen. | |
Identifikatoren | 10.5446/57157 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache | ||
Produktionsjahr | 2022 |
Inhaltliche Metadaten
Fachgebiet | |||||
Genre | |||||
Abstract |
| ||||
Schlagwörter |
|
9
00:00
Besprechung/InterviewComputeranimation
06:44
Computeranimation
Transkript: Deutsch(automatisch erzeugt)
00:00
Ich rede jetzt ein wenig über die Submission-Application, die noch relativ neu ist bei der ZBMET. Als kleinen Überblick, ich werde ein bisschen was zu ZBMET selber sagen und die Infrastruktur des Archivs, beziehungsweise unseres Archivteils, ZBMET ist ja eine Bibliothek, und dann
00:25
gehe ich auch in die Details zur Sammlung, um die es geht ein, also GMS ist es, und die Datenstruktur, wie wir an die Archivierung rangegangen sind, das Ganze umgesetzt haben und was für Lessons auch dann gelernt wurden.
00:45
So, also alle, die bei Franziska Schwab gestern den Vortrag schon gehört haben, wissen das, oder können sich vielleicht daran erinnern, dass ZBMET einer von den drei deutschen zentralen Fachbibliotheken ist, zusammen mit TEB und ZBW, und wir sind das Informationszentrum
01:04
Lebenswissenschaften und haben entsprechend auch den lebenswissenschaftlichen Fachlichen die Ausrichtung. Dann haben wir verschiedene Bestände, beziehungsweise Bestandteile an Beständen, und haben dann Journals, E-Books und eben auch verschiedene Publikationsplattformen
01:23
und dazu gehört eben die Publikationsplattform GMS. Dazu ist zu sagen, dass wir zwar prospektiv alle diese Sammlungen auch in die Langzeitarchivierung überführen, aber wir sind momentan noch dabei uns mit
01:41
GMS zu befassen. So, einmal weiter. Genau. Also die Infrastruktur sieht ungefähr so aus, wir bekommen Daten von Datendieferanten, in diesem Fall eben die Publikationsplattform,
02:03
da holen wir die Daten und die Metadaten ab, dann gibt es noch eine zweite Quelle für Metadaten, das ist der Verbundenkatalog. Warum komme ich dann nachher noch mal drauf zurück? Dann haben wir bei ZbMet eine Submission Application, die lokal läuft, und dann gibt es die konsoziale Struktur, die alle, die gestern dabei waren, auch schon
02:28
davon gehört haben. Da gibt es dann ein Archivsystem, und unten ist auch ZbW und
02:41
die TAB übernimmt das Hosting und die Administration und Maintenance, aber wir haben alle unsere einzelnen Datenbereiche. Wir übergeben das Datenpaket an einen Transfer-Server und dann wird es in das System Rosetta übernommen, also vom
03:04
Datenbereich ZbMet als Dark Archive auch, also keinen direkten Nutzerzugang und entsprechend können wir dann bei Bedarf unsere Pakete auch an Datendieferanten, das wäre jetzt immer noch die Publikationsplattform wieder zurückgeben und da können dann die
03:26
Daten zugreifen. Jetzt geht es um die Sammlung. Die Publikationsplattform
03:45
German Medical Science, kurz GMS, ist zum einen nicht bei uns gehostet, sondern bei Bfarm, Bundesinstitut für Arzneimittel und Medizinprodukte, aber ZbMet bietet
04:03
das Redaktionsberuf. Dann gibt es verschiedene Komponenten auf dem Portal, unter anderem Journals und Artikel und eben die Kongresse mit Abstracts und ein paar andere. Die Besonderheit ist jetzt, wie bei allen älteren Sammlungen, gibt es irgendwo
04:25
auch immer wieder Ausnahmen und es wurden für einzelne Kongresse oder Ausgeber individuelle Lösungen erstellt und dann gibt es die Publikationen zum Teil nur in XML und nicht im PDF. So und wir haben uns jetzt spezifisch mit den
04:45
Kongressen und den Abstracts, wie schon erwähnt, eingangs befasst und haben ein wenig ungewöhnliche Hangebensweise genutzt. Also entschieden wurde, dass, ich habe es mal
05:01
Datenbankarchivierung im Ansatz genannt, da das Look und Feel erhalten werden sollte und Kontextinformation der Publikation, also der Abstracts. Was das genau ist, komme ich nachher nochmal darauf zurück. Und es sollte über eine populäre Software das
05:25
Rendering möglich sein. Das heißt, wenn die Publikation nur als XML dargestellt wird und der menschliche Leser als HTML da zur Verfügung steht, dann wird die HTML
05:44
nicht als WAC-Datei gespeichert, sodass man einen Viewer braucht, sondern als PDF. Dann kommt noch hinzu, dass wir eben keinen Zugriff auf die Datenbank hatten und die Objekte auch nicht geliefert werden mus-, konnten. Und wir haben dann die
06:06
verschiedenen Komponenten, also eben die Kontextinformation und die Abstracts separat behandelt. Die einzelnen Relationen zu diesen Komponenten mussten dann eben auch abgebildet werden und wir mussten eben selber die Objekte abholen. Also da haben wir,
06:22
ich habe es jetzt mal web scraping Ansatz gewählt. Und hinzu kommt auch, dass wir jetzt ungefähr gleich Metadaten noch archivieren wollten. Das heißt, über das Datenangebot der Plattform hinausgehend. Und entsprechend haben wir dann Metadaten aus verschiedenen
06:43
Quellen kombiniert. So, und wenn man sich jetzt das im ganzen Detail ein bisschen anschaut bei den Kongressen mit Abstracts, gibt es Seiten für Kongressbeschreibung auf Deutsch und Englisch. Das ist hier untergeordnet unter Kongress. Da kann ein
07:03
Abstract-Band vorliegen. Darunter sind dann auch Abstracts, eben auch wieder auf Deutsch und Englisch. Darunter sind dann auch verlinkte Bilddateien, Attachments mit Dateien. Und dann geht es weiter mit weiteren Abstracts und dann kommen auch weitere Kongressen mit eben entsprechend Kongressbeschreibung. Die eigentliche
07:23
Publikation ist das Abstract. Aber die Kongressbeschreibung wurde als wichtige Kontextinformation bewertet mit eben auch zugehörigen Kongressmetadaten, die auf dieser Ebene der Kongresse und Kongressbeschreibung existierten. Und das sollte auch
07:43
alles mit archiviert werden. Und dann hat, es ist ein bisschen vereinfacht jetzt, als es in real ist. Aber so ungefähr sieht die Substruktur aus. Also wir haben hier die Rosetta-Mets-Datei, die in ingest steuert und auch die Metadaten enthält.
08:03
Und darunter dann Kongressbeschreibung auf Deutsch und Englisch, eben PDF hergestellt. Abstract-Band eventuell und zur Kompensation nochmal die Schnittstellen-Antwort. Zu Metadatenschnittstellen komme ich nachher noch kurz.
08:20
Und beim Abstract ist es so ähnlich. Abstract, Deutsch und Englisch-Seite, dann eben noch die XML-verlinkte Bilddateien, Attachment-Dateien kommen wir noch dazu und auch wieder die Schnittstellen-Antwort. So, wie sieht das mit den eben erwähnten Metadatenquellen aus? Also die auf Kongressebene
08:45
und Kongressbeschreibungsebene kommen die Metadaten aus dem Verbundkatalog, weil die eben da katalogisiert werden. Jetzt haben wir aber auch dann ein paar Metadaten aus dem Publikationsportal genommen. Die Gründe dafür werde ich
09:01
gleich noch drauf eingehen. Deswegen der gestrichelte Fall. Und die Abstracts, deren Metadaten kommen eben von der ORI-Schnittstelle des Publikationsportals. So, jetzt die verschiedenen Metadaten werden ja kombiniert. Und auf der Ebene der Kongresse- bzw. Kongressbeschreibung
09:23
haben wir zwei verschiedene Identifier. Das liegt daran, dass das Publikationsportal nicht die HT-Nummer bzw. den Identifier aus dem Verbundkatalog beinhaltet. Aber wir brauchten eben einmal die, wir
09:41
wollten die Metadaten aus dem Verbundkatalog haben, deswegen brauchten wir diese Identifier. Und wir wollten eben auch die IDs des Portals haben, damit wir mit denen kommunizieren können. Wir müssen ja eventuell die Objekte auch wieder zurückgeben können. Und wir wollen auch immer noch die
10:01
Informationen, was wir archiviert haben, die Möglichkeit haben, das in die Verbunddatenbank, im Verbundkatalog eventuell zurückzuspiegeln. Also auch wieder wichtig. Dann kommt halt hinzu, dass wir die beschreibenden Metadaten der Kongresse haben wollten. Die haben wir auch über die
10:25
Verbunddatenbank bekommen, über eine SOU-Schnittstelle, schon ein Doubling-Core. Und dann hat die Submission Application, die das alles abgeholt hat oder die das abholt, die fügt noch Festwerte einzelne
10:47
Metadaten aus dem Publikationsportal. Dort haben wir dann eine wieder eine IID, eine Kurz-ID, die kommt aus der URL. Dann die
11:04
beschreibenden Metadaten aus der OEI-Schnittstelle, wie schon erwähnt, haben auch ein Doubling-Core-Format, was eben Rosetta auch benötigt. Jetzt sind die Autorennahme über die OEI-Schnittstelle abgekürzt, also die Vornamen. Und um eindeutig die Autoren zu ordnen zu können, haben
11:23
wir dann die vollständigen Autorennamen oder Corporation, falls das eingetragen ist, aus der Abstract XML noch genommen. Und wie schon erwähnt, die einzelnen Komponenten, also über Abstract
11:42
und Kongressbeschreibung, sollen ja auch in Relation gesetzt werden. Das heißt, hier kommt noch auf Abstract-Ebene die Kurz-ID der Kongressbeschreibung aus der URL der entsprechenden Beschreibung hinzu. Und Submission Application generiert auch einzelne Festwerte
12:02
wieder, die benötigt werden von Rosetta. So, jetzt, das war natürlich auch schon Pre-Ingest, aber wie der Pre-Ingest jetzt so ungefähr abläuft, das sieht so aus. Auch hier kommen wir nicht einfach automatisch an alle
12:20
Daten. Das heißt, wenn wir ein Datenset zusammenstellen, und das machen wir an einem Publikationsjahr, müssen wir erstmal die einzelnen HT-Nummern zusammenstellen. Das macht eine Mitarbeiterin aus unserem Team, die dann von der verbundenen Datenbank die HT-Nummer abruft
12:42
und in eine CSV-Datei eingibt. Ab da läuft es allerdings dann automatisch. Das heißt, Objekte werden von der Submission Application mit einer spezifischen Teil, also einem sammlungsspezifischen Teil, und in diesem Fall
13:01
ist die GMS-to-ZIP-App untergeladen. Die Metadaten werden abgerufen, die Pre-ZIP wird erstellt und lokal gespeichert. Und natürlich auch die PDFs werden in diesem Schritt erstellt. Mit Itext machen wir das. Hier kann man dann schon, weil verschiedene Routinen in die
13:21
Submission Application eingebaut sind, Ausnahmen erkennen oder irgendwie bestimmte Metadaten können nicht abgerufen werden oder sowas. Wenn diese Meldungen kommen, dann können wir uns mit dem Redaktionsbüro zusammensetzen. Und wenn sich das Problem lösen lässt,
13:40
also entweder müssen wir das lokal lösen und ein Workaround finden, aber meistens kann das halt auf dem Publikationsportal gelöst werden und dann wird eine Correction zum Beispiel publiziert von der dort vorliegenden Publikation und wir können die ZIP einfach neu erstellen.
14:02
Dann findet noch eine Validierung statt mit Jove oder Vera PDF, bzw. und Vera PDF. Wenn da irgendwie eine Meldung kommt, dass ein Objekt nicht valide ist, dann gehen wir auch wieder auf das Redaktionsbüro GMS hinzu und die können dann auch wieder eine Correction erstellen
14:25
und wir erstellen dann die ZIP neu. Und dann gibt es noch einen generischen Teil der Submission Application, der die Datenpakete an Rosetta übergibt.
14:44
Dann laufen verschiedene Rosettaprozesse in Rosetta los. Was vielleicht noch interessant ist, ist, dass wir dann auch entsprechend, wie in Rosetta auch vor eingestellt ist, eine Qualitätskontrolle für das Langzeitarchivierungsinteren durchführen. Das ist alles Langzeitarchivierungsinteren,
15:03
ein Collection-Building, das ist auch eine Funktion von Rosetta, mit einer Collection pro Kongress und da wird dann auch nochmal eine Vollständigkeitskontrolle, also das ist jetzt eher händisch. Wir wissen natürlich, wie viele ZIPs erstellt wurden und dann können wir auch gucken, dass alle in der Collection sind. Und Rosetta ist auch
15:22
an die Verbunddatenbank, dem Verbundkatalog angebunden und durch die Identifier, die IT-Nummern werden da auch nochmal Metadaten angereichert. Was lokal dann außerhalb von Rosetta noch passiert ist, dass der Metz-Ingester überprüft, ob die ZIP erfolgreich geingestet wurde.
15:43
Dann wird lokal eine Dann-Datei geschrieben in die Datei und wir führen das Ganze in ein gemeinsames Laufwerk lokal bei uns und das GMS-Redaktionsbüro kann da auch drauf zugreifen und nochmal eine Vollständigkeitskontrolle durchführen.
16:02
Genau, das war unser erster automatisierter oder auf diese Art und Weise automatisierter Workflow und wenn die anderen Neulinge sind, dann bin ich glaube ich noch Embryo, weil ich bin mitten in der Etablierung dieses Workshops dazugekommen. Wir haben bemerkt,
16:21
manchmal kann man sich die Sammlungen nicht aussuchen, die man archivieren muss, aber wenn man die Wahl hat, dann sollte man sich eine mit einfachen Datenstrukturen und eindeutigen Publikationsdateien aussuchen. Die PDF-Generierung war dann doch nicht so einfach, wie man sich das erhofft hat und man kann es auch nicht auf eine
16:42
neue Sammlung einfach mitnehmen, weil man dann, damit die PDF wirklich so aussieht wie die HTML-Datei bzw. die HTML-Seite vorher mit allen Komponenten, muss man doch einiges noch anpassen. Dann haben wir auch bemerkt, man kann sagen, die Appstacks sind
17:04
halt eben die XMLs, aber da kamen dann auch die Bilddateien hinzu und wie man die bekommt, also das haben wir dann im Laufe der Zeit noch rausfinden müssen, deswegen die Klärung der zu archivierenden Komponenten der Publikation möglichst früh
17:21
durchzuführen hat schon eben einige Vorteile. Dann ein Punkt, der eher so ins Projektmanagement geht, aber wir haben dann uns währenddessen auch, weil generell das Team ist noch relativ neu, in die relevanten Standards eingearbeitet und dann kann man sich auch in sehr viele Details verlieren. Deswegen macht
17:44
es auch da Sinn, einfach Minimumziele für den Workflow zu definieren, das kann man natürlich dann noch anpassen, wenn man noch Dinge hinzunehmen will oder muss, aber dass man da das hauptsächlich aus den Augen verliert, dafür macht das Sinn.
18:01
Dann haben wir noch natürlich Qualitätskontrollen, auch eine formale Qualitätskontrolle bei der Etablierung, kurz bevor wir produktiv gegangen sind durchgeführt, aber da inzwischen auch immer mal wieder kleinere Dinge auftauchen. Wir haben uns mit Sonderzeichen befasst und trotzdem waren die Sonderzeichen
18:20
dann am Ende jetzt die letzten Tage immer wieder Thema. Also Qualitätskontrolle möglichst intensiv zu machen, ist auch von Vorteil. Und wir haben uns während wir in der Etablierung Phase waren auch mit Certifizierung befasst und haben dann
18:40
einige Dinge nochmal überdenken müssen. Also wenn man die Möglichkeit hat, Zertifizierungsvorgaben relativ früh anzubeziehen, ist es auch nicht schlecht, obwohl es schwierig ist, aber sowas abstraktes oder zum Teil recht abstraktes wie Zertifizierung praktisch anzuwenden, ohne einen wirklich
19:01
etablierten Workflow zu haben. Das ist ein bisschen Hände und Ei Problematik, aber das zu diskutieren ist schon einmal gut. Okay, also in Zusammenfassung, wir haben die Submission Application, die aus dem spezifischen Teil, der GMS2Zip
19:22
App besteht und einem generischen Teil Maths and Jester. Der spezifische Teil holt die Objekte vom Publikationsportal ab. Das sind Abstracts und die Kongressbeschreibung, generiert die PDFs, holt die Metadaten ab aus verschiedenen Quellen,
19:42
packt die Pakete für Rosetta und der Maths and Jester übergibt die Datenpakete an Rosetta. Qualitätskontrolle und Vollständigkeitskontrolle, da haben wir den großen Vorteil, dass das GMS Redaktionsbüro eben in der gleichen Institution besitzt und wir da sehr eng zusammenarbeiten können.
20:01
Und das war's. Vielen Dank für die Aufmerksamkeit.