We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Mensch-Maschine-Interaktion bei digSubmission Application für den automatischen pre-Ingest und Ingest

00:00

Formale Metadaten

Titel
Mensch-Maschine-Interaktion bei digSubmission Application für den automatischen pre-Ingest und Ingest
Serientitel
Anzahl der Teile
21
Autor
Lizenz
CC-Namensnennung 3.0 Deutschland:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache
Produktionsjahr2022

Inhaltliche Metadaten

Fachgebiet
Genre
Abstract
Die Submission Application für die Langzeitarchivierung bei ZB MED wurde anhand eines Use Cases entworfen. Dieser Use Case betrifft zu archivierende Konferenz-Abstracts auf einem Publikationsportal, dem Portal German Medical Science. Dabei war die Datenstruktur des Publikationsportals mit den Ansprüchen an eine umfangreiche und zukunftsfähige Langzeitarchivierung zu vereinen. Darüber hinaus wurde bei der Konzipierung der Submission Application die Weiterverwendung für andere Workflows mitgedacht. Die Submission Application und die von ihr erstellten Submission Information Packages (SIPs) sollen in diesem Vortrag vorgestellt werden. Das Archivierungssystem von ZB MED nutzt die Software Rosetta und wird in Kooperation mit Leibniz-Informationszentrum Technik und Naturwissenschaften und Universitätsbibliothek (TIB) und Leibniz-Informationszentrum Wirtschaft (ZBW) betrieben, wobei TIB die Administration und das Hosting des Systems übernimmt. Da Rosetta primär Vorgaben für den Ingest macht, konnte vor allem der davor liegende pre-Ingest vergleichsweise frei gestaltet werden. Die an ZB MED konzipierte Submission Application besteht aus zwei Teilen. Der Workflow-spezifische Teil interagiert mit dem Publikationsportal, holt Daten ab und generiert SIPs entsprechend der Datenstruktur der Sammlung. Der zweite, generische Teil übergibt die erstellte SIP an das Langzeitarchivierungssystem über den von Rosetta bereitgestellten METS-Ingest. Sowohl SIP-Struktur als auch Metadaten-Übernahme wurden granular konzipiert. Dabei wird sowohl für jede Abstract-Publikation wie auch für die Beschreibung der Konferenz eine SIP generiert. Metadaten aus unterschiedlichen Quellen werden kombiniert um beide Level, die übergeordnete Konferenz sowie die einzelnen Abstracts, abzubilden. In den Workflow-spezifischen Teil ist außerdem eine Validierungsroutine und eine PDF/A-Generierungsroutine integriert. Die Validierung dient dazu, den Datenproduzenten in der gleichen Institution invalide Dateien frühzeitig im Workflow zu melden und diese von ihnen korrigieren zu lassen. PDF/A-Dateien werden für diese Sammlung generiert, wenn Textpublikationen nicht in PDF für die Langzeitarchivierung bereitstehen.
Schlagwörter
Deutsch
Deutsch
Englisch
Englisch
Besprechung/InterviewComputeranimation
Computeranimation
Transkript: Deutsch(automatisch erzeugt)
Ich rede jetzt ein wenig über die Submission-Application, die noch relativ neu ist bei der ZBMET. Als kleinen Überblick, ich werde ein bisschen was zu ZBMET selber sagen und die Infrastruktur des Archivs, beziehungsweise unseres Archivteils, ZBMET ist ja eine Bibliothek, und dann
gehe ich auch in die Details zur Sammlung, um die es geht ein, also GMS ist es, und die Datenstruktur, wie wir an die Archivierung rangegangen sind, das Ganze umgesetzt haben und was für Lessons auch dann gelernt wurden.
So, also alle, die bei Franziska Schwab gestern den Vortrag schon gehört haben, wissen das, oder können sich vielleicht daran erinnern, dass ZBMET einer von den drei deutschen zentralen Fachbibliotheken ist, zusammen mit TEB und ZBW, und wir sind das Informationszentrum
Lebenswissenschaften und haben entsprechend auch den lebenswissenschaftlichen Fachlichen die Ausrichtung. Dann haben wir verschiedene Bestände, beziehungsweise Bestandteile an Beständen, und haben dann Journals, E-Books und eben auch verschiedene Publikationsplattformen
und dazu gehört eben die Publikationsplattform GMS. Dazu ist zu sagen, dass wir zwar prospektiv alle diese Sammlungen auch in die Langzeitarchivierung überführen, aber wir sind momentan noch dabei uns mit
GMS zu befassen. So, einmal weiter. Genau. Also die Infrastruktur sieht ungefähr so aus, wir bekommen Daten von Datendieferanten, in diesem Fall eben die Publikationsplattform,
da holen wir die Daten und die Metadaten ab, dann gibt es noch eine zweite Quelle für Metadaten, das ist der Verbundenkatalog. Warum komme ich dann nachher noch mal drauf zurück? Dann haben wir bei ZbMet eine Submission Application, die lokal läuft, und dann gibt es die konsoziale Struktur, die alle, die gestern dabei waren, auch schon
davon gehört haben. Da gibt es dann ein Archivsystem, und unten ist auch ZbW und
die TAB übernimmt das Hosting und die Administration und Maintenance, aber wir haben alle unsere einzelnen Datenbereiche. Wir übergeben das Datenpaket an einen Transfer-Server und dann wird es in das System Rosetta übernommen, also vom
Datenbereich ZbMet als Dark Archive auch, also keinen direkten Nutzerzugang und entsprechend können wir dann bei Bedarf unsere Pakete auch an Datendieferanten, das wäre jetzt immer noch die Publikationsplattform wieder zurückgeben und da können dann die
Daten zugreifen. Jetzt geht es um die Sammlung. Die Publikationsplattform
German Medical Science, kurz GMS, ist zum einen nicht bei uns gehostet, sondern bei Bfarm, Bundesinstitut für Arzneimittel und Medizinprodukte, aber ZbMet bietet
das Redaktionsberuf. Dann gibt es verschiedene Komponenten auf dem Portal, unter anderem Journals und Artikel und eben die Kongresse mit Abstracts und ein paar andere. Die Besonderheit ist jetzt, wie bei allen älteren Sammlungen, gibt es irgendwo
auch immer wieder Ausnahmen und es wurden für einzelne Kongresse oder Ausgeber individuelle Lösungen erstellt und dann gibt es die Publikationen zum Teil nur in XML und nicht im PDF. So und wir haben uns jetzt spezifisch mit den
Kongressen und den Abstracts, wie schon erwähnt, eingangs befasst und haben ein wenig ungewöhnliche Hangebensweise genutzt. Also entschieden wurde, dass, ich habe es mal
Datenbankarchivierung im Ansatz genannt, da das Look und Feel erhalten werden sollte und Kontextinformation der Publikation, also der Abstracts. Was das genau ist, komme ich nachher nochmal darauf zurück. Und es sollte über eine populäre Software das
Rendering möglich sein. Das heißt, wenn die Publikation nur als XML dargestellt wird und der menschliche Leser als HTML da zur Verfügung steht, dann wird die HTML
nicht als WAC-Datei gespeichert, sodass man einen Viewer braucht, sondern als PDF. Dann kommt noch hinzu, dass wir eben keinen Zugriff auf die Datenbank hatten und die Objekte auch nicht geliefert werden mus-, konnten. Und wir haben dann die
verschiedenen Komponenten, also eben die Kontextinformation und die Abstracts separat behandelt. Die einzelnen Relationen zu diesen Komponenten mussten dann eben auch abgebildet werden und wir mussten eben selber die Objekte abholen. Also da haben wir,
ich habe es jetzt mal web scraping Ansatz gewählt. Und hinzu kommt auch, dass wir jetzt ungefähr gleich Metadaten noch archivieren wollten. Das heißt, über das Datenangebot der Plattform hinausgehend. Und entsprechend haben wir dann Metadaten aus verschiedenen
Quellen kombiniert. So, und wenn man sich jetzt das im ganzen Detail ein bisschen anschaut bei den Kongressen mit Abstracts, gibt es Seiten für Kongressbeschreibung auf Deutsch und Englisch. Das ist hier untergeordnet unter Kongress. Da kann ein
Abstract-Band vorliegen. Darunter sind dann auch Abstracts, eben auch wieder auf Deutsch und Englisch. Darunter sind dann auch verlinkte Bilddateien, Attachments mit Dateien. Und dann geht es weiter mit weiteren Abstracts und dann kommen auch weitere Kongressen mit eben entsprechend Kongressbeschreibung. Die eigentliche
Publikation ist das Abstract. Aber die Kongressbeschreibung wurde als wichtige Kontextinformation bewertet mit eben auch zugehörigen Kongressmetadaten, die auf dieser Ebene der Kongresse und Kongressbeschreibung existierten. Und das sollte auch
alles mit archiviert werden. Und dann hat, es ist ein bisschen vereinfacht jetzt, als es in real ist. Aber so ungefähr sieht die Substruktur aus. Also wir haben hier die Rosetta-Mets-Datei, die in ingest steuert und auch die Metadaten enthält.
Und darunter dann Kongressbeschreibung auf Deutsch und Englisch, eben PDF hergestellt. Abstract-Band eventuell und zur Kompensation nochmal die Schnittstellen-Antwort. Zu Metadatenschnittstellen komme ich nachher noch kurz.
Und beim Abstract ist es so ähnlich. Abstract, Deutsch und Englisch-Seite, dann eben noch die XML-verlinkte Bilddateien, Attachment-Dateien kommen wir noch dazu und auch wieder die Schnittstellen-Antwort. So, wie sieht das mit den eben erwähnten Metadatenquellen aus? Also die auf Kongressebene
und Kongressbeschreibungsebene kommen die Metadaten aus dem Verbundkatalog, weil die eben da katalogisiert werden. Jetzt haben wir aber auch dann ein paar Metadaten aus dem Publikationsportal genommen. Die Gründe dafür werde ich
gleich noch drauf eingehen. Deswegen der gestrichelte Fall. Und die Abstracts, deren Metadaten kommen eben von der ORI-Schnittstelle des Publikationsportals. So, jetzt die verschiedenen Metadaten werden ja kombiniert. Und auf der Ebene der Kongresse- bzw. Kongressbeschreibung
haben wir zwei verschiedene Identifier. Das liegt daran, dass das Publikationsportal nicht die HT-Nummer bzw. den Identifier aus dem Verbundkatalog beinhaltet. Aber wir brauchten eben einmal die, wir
wollten die Metadaten aus dem Verbundkatalog haben, deswegen brauchten wir diese Identifier. Und wir wollten eben auch die IDs des Portals haben, damit wir mit denen kommunizieren können. Wir müssen ja eventuell die Objekte auch wieder zurückgeben können. Und wir wollen auch immer noch die
Informationen, was wir archiviert haben, die Möglichkeit haben, das in die Verbunddatenbank, im Verbundkatalog eventuell zurückzuspiegeln. Also auch wieder wichtig. Dann kommt halt hinzu, dass wir die beschreibenden Metadaten der Kongresse haben wollten. Die haben wir auch über die
Verbunddatenbank bekommen, über eine SOU-Schnittstelle, schon ein Doubling-Core. Und dann hat die Submission Application, die das alles abgeholt hat oder die das abholt, die fügt noch Festwerte einzelne
Metadaten aus dem Publikationsportal. Dort haben wir dann eine wieder eine IID, eine Kurz-ID, die kommt aus der URL. Dann die
beschreibenden Metadaten aus der OEI-Schnittstelle, wie schon erwähnt, haben auch ein Doubling-Core-Format, was eben Rosetta auch benötigt. Jetzt sind die Autorennahme über die OEI-Schnittstelle abgekürzt, also die Vornamen. Und um eindeutig die Autoren zu ordnen zu können, haben
wir dann die vollständigen Autorennamen oder Corporation, falls das eingetragen ist, aus der Abstract XML noch genommen. Und wie schon erwähnt, die einzelnen Komponenten, also über Abstract
und Kongressbeschreibung, sollen ja auch in Relation gesetzt werden. Das heißt, hier kommt noch auf Abstract-Ebene die Kurz-ID der Kongressbeschreibung aus der URL der entsprechenden Beschreibung hinzu. Und Submission Application generiert auch einzelne Festwerte
wieder, die benötigt werden von Rosetta. So, jetzt, das war natürlich auch schon Pre-Ingest, aber wie der Pre-Ingest jetzt so ungefähr abläuft, das sieht so aus. Auch hier kommen wir nicht einfach automatisch an alle
Daten. Das heißt, wenn wir ein Datenset zusammenstellen, und das machen wir an einem Publikationsjahr, müssen wir erstmal die einzelnen HT-Nummern zusammenstellen. Das macht eine Mitarbeiterin aus unserem Team, die dann von der verbundenen Datenbank die HT-Nummer abruft
und in eine CSV-Datei eingibt. Ab da läuft es allerdings dann automatisch. Das heißt, Objekte werden von der Submission Application mit einer spezifischen Teil, also einem sammlungsspezifischen Teil, und in diesem Fall
ist die GMS-to-ZIP-App untergeladen. Die Metadaten werden abgerufen, die Pre-ZIP wird erstellt und lokal gespeichert. Und natürlich auch die PDFs werden in diesem Schritt erstellt. Mit Itext machen wir das. Hier kann man dann schon, weil verschiedene Routinen in die
Submission Application eingebaut sind, Ausnahmen erkennen oder irgendwie bestimmte Metadaten können nicht abgerufen werden oder sowas. Wenn diese Meldungen kommen, dann können wir uns mit dem Redaktionsbüro zusammensetzen. Und wenn sich das Problem lösen lässt,
also entweder müssen wir das lokal lösen und ein Workaround finden, aber meistens kann das halt auf dem Publikationsportal gelöst werden und dann wird eine Correction zum Beispiel publiziert von der dort vorliegenden Publikation und wir können die ZIP einfach neu erstellen.
Dann findet noch eine Validierung statt mit Jove oder Vera PDF, bzw. und Vera PDF. Wenn da irgendwie eine Meldung kommt, dass ein Objekt nicht valide ist, dann gehen wir auch wieder auf das Redaktionsbüro GMS hinzu und die können dann auch wieder eine Correction erstellen
und wir erstellen dann die ZIP neu. Und dann gibt es noch einen generischen Teil der Submission Application, der die Datenpakete an Rosetta übergibt.
Dann laufen verschiedene Rosettaprozesse in Rosetta los. Was vielleicht noch interessant ist, ist, dass wir dann auch entsprechend, wie in Rosetta auch vor eingestellt ist, eine Qualitätskontrolle für das Langzeitarchivierungsinteren durchführen. Das ist alles Langzeitarchivierungsinteren,
ein Collection-Building, das ist auch eine Funktion von Rosetta, mit einer Collection pro Kongress und da wird dann auch nochmal eine Vollständigkeitskontrolle, also das ist jetzt eher händisch. Wir wissen natürlich, wie viele ZIPs erstellt wurden und dann können wir auch gucken, dass alle in der Collection sind. Und Rosetta ist auch
an die Verbunddatenbank, dem Verbundkatalog angebunden und durch die Identifier, die IT-Nummern werden da auch nochmal Metadaten angereichert. Was lokal dann außerhalb von Rosetta noch passiert ist, dass der Metz-Ingester überprüft, ob die ZIP erfolgreich geingestet wurde.
Dann wird lokal eine Dann-Datei geschrieben in die Datei und wir führen das Ganze in ein gemeinsames Laufwerk lokal bei uns und das GMS-Redaktionsbüro kann da auch drauf zugreifen und nochmal eine Vollständigkeitskontrolle durchführen.
Genau, das war unser erster automatisierter oder auf diese Art und Weise automatisierter Workflow und wenn die anderen Neulinge sind, dann bin ich glaube ich noch Embryo, weil ich bin mitten in der Etablierung dieses Workshops dazugekommen. Wir haben bemerkt,
manchmal kann man sich die Sammlungen nicht aussuchen, die man archivieren muss, aber wenn man die Wahl hat, dann sollte man sich eine mit einfachen Datenstrukturen und eindeutigen Publikationsdateien aussuchen. Die PDF-Generierung war dann doch nicht so einfach, wie man sich das erhofft hat und man kann es auch nicht auf eine
neue Sammlung einfach mitnehmen, weil man dann, damit die PDF wirklich so aussieht wie die HTML-Datei bzw. die HTML-Seite vorher mit allen Komponenten, muss man doch einiges noch anpassen. Dann haben wir auch bemerkt, man kann sagen, die Appstacks sind
halt eben die XMLs, aber da kamen dann auch die Bilddateien hinzu und wie man die bekommt, also das haben wir dann im Laufe der Zeit noch rausfinden müssen, deswegen die Klärung der zu archivierenden Komponenten der Publikation möglichst früh
durchzuführen hat schon eben einige Vorteile. Dann ein Punkt, der eher so ins Projektmanagement geht, aber wir haben dann uns währenddessen auch, weil generell das Team ist noch relativ neu, in die relevanten Standards eingearbeitet und dann kann man sich auch in sehr viele Details verlieren. Deswegen macht
es auch da Sinn, einfach Minimumziele für den Workflow zu definieren, das kann man natürlich dann noch anpassen, wenn man noch Dinge hinzunehmen will oder muss, aber dass man da das hauptsächlich aus den Augen verliert, dafür macht das Sinn.
Dann haben wir noch natürlich Qualitätskontrollen, auch eine formale Qualitätskontrolle bei der Etablierung, kurz bevor wir produktiv gegangen sind durchgeführt, aber da inzwischen auch immer mal wieder kleinere Dinge auftauchen. Wir haben uns mit Sonderzeichen befasst und trotzdem waren die Sonderzeichen
dann am Ende jetzt die letzten Tage immer wieder Thema. Also Qualitätskontrolle möglichst intensiv zu machen, ist auch von Vorteil. Und wir haben uns während wir in der Etablierung Phase waren auch mit Certifizierung befasst und haben dann
einige Dinge nochmal überdenken müssen. Also wenn man die Möglichkeit hat, Zertifizierungsvorgaben relativ früh anzubeziehen, ist es auch nicht schlecht, obwohl es schwierig ist, aber sowas abstraktes oder zum Teil recht abstraktes wie Zertifizierung praktisch anzuwenden, ohne einen wirklich
etablierten Workflow zu haben. Das ist ein bisschen Hände und Ei Problematik, aber das zu diskutieren ist schon einmal gut. Okay, also in Zusammenfassung, wir haben die Submission Application, die aus dem spezifischen Teil, der GMS2Zip
App besteht und einem generischen Teil Maths and Jester. Der spezifische Teil holt die Objekte vom Publikationsportal ab. Das sind Abstracts und die Kongressbeschreibung, generiert die PDFs, holt die Metadaten ab aus verschiedenen Quellen,
packt die Pakete für Rosetta und der Maths and Jester übergibt die Datenpakete an Rosetta. Qualitätskontrolle und Vollständigkeitskontrolle, da haben wir den großen Vorteil, dass das GMS Redaktionsbüro eben in der gleichen Institution besitzt und wir da sehr eng zusammenarbeiten können.
Und das war's. Vielen Dank für die Aufmerksamkeit.