We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Auffinden von Open Data in Textpublikationen – Ein systematischer Vergleich von Klassifikationsalgorithmen

00:00

Formal Metadata

Title
Auffinden von Open Data in Textpublikationen – Ein systematischer Vergleich von Klassifikationsalgorithmen
Title of Series
Number of Parts
13
Author
Contributors
License
CC Attribution 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Ein wichtiger Pfeiler nachvollziehbarer und reproduzierbarer Forschung ist der offene Zugang zu Forschungsergebnissen. Dazu gehört, zunehmend festgelegt in Projektförderbedingungen, die Veröffentlichung der im Forschungsprozess entstandenen Daten als Open Data. Die Publikation von Daten wird momentan, je nach Disziplin, sehr unterschiedlich praktiziert. Dies erschwert eine systematische Erfassung von Open Data, etwa über persistente Identifikatoren bzw. Relationen zwischen Text- und Datenpublikationen. Ein an der Charité Berlin entwickelter Text Mining Algorithmus zur automatisierten Identifikation von Open Data in Textpublikationen (ODDPub) bietet dafür eine mögliche Lösung. Das Vorgehen wurde hier anhand einer Stichprobe von Publikationen der TU bzw. des Universitätsklinikums Dresden erprobt und systematisch mit den Klassifikationsergebnissen des DataSeer Natural Language Processing Modells (extrahiert aus dem PLOS Open Science Indicators Datensatz) und einer manuellen Kodierung verglichen. Die beiden automatisierten Klassifikationen stimmen zu einem großen Teil überein und haben vergleichbare F1-Scores, eine Metrik zur Bewertung von Klassifikationsmodellen. Allerdings hat ODDPub eine etwas höhere Precision als DataSeer, während DataSeer einen höheren Recall aufweist. D.h. DataSeer findet zwar fast alle tatsächlichen Datenpublikationen, identifiziert dafür aber einige fälschlicherweise als Open Data, während ODDPub weniger falsch klassifiziert, dafür aber einige tatsächlich Open Data enthaltende Publikationen verpasst. Abweichungen von der manuellen Kodierung fanden sich für beide Algorithmen u.a. für die Identifikation von Datennachnutzung oder bei fehlerhaften Verlinkungen. Im Vortrag stelle ich das Vorgehen und die Ergebnisse der Untersuchung dar, wäge die Nutzungsmöglichkeiten der beiden Verfahren gegeneinander ab und geben einen Ausblick auf mögliche Weiterentwicklungsszenarien zum standardisierten Auffinden veröffentlichter Forschungsdaten.
Keywords
Computer animation
Computer animation
Computer animation
Computer animationLecture/Conference
Lecture/Conference
Lecture/Conference
Lecture/Conference
Computer animation
Ich freue mich, heute Ihnen einen kleinen Einblick zu geben in die Fragen, mit denen ich mich in meiner Masterarbeit im Fernstudiengang Informations- und Bibliothekswissenschaften an der HU Berlin beschäftigt habe.
Und zwar habe ich mich mit der Frage beschäftigt, was wir denn für Methoden nutzen können, um Open Data zu finden und habe dabei einen Vergleich von Klassifikationsalgorithmen durchgeführt. Nicht ganz überraschend werde ich natürlich ein bisschen was zum Hintergrund, warum ich das überhaupt gemacht habe,
erzählen, wie ich das gemacht habe und Ihnen natürlich auch einen Einblick geben, was ich herausgefunden habe. Genau, zur Motivation. Das wurde jetzt natürlich schon eingeführt und ist für Sie wahrscheinlich nichts Neues. Das ist der Grundgedanke von Open Science, also dem offenen Zugang zu wissenschaftlichen Ergebnissen.
Das umfasst noch sehr viel mehr, aber ein wichtiger Pfeiler für nachvollziehbare und reproduzierbare Forschung ist der offene Zugang zu wissenschaftlichen Ergebnissen und Wissen. Und das bezieht sich eben nicht nur auf die Ergebnispublikation, sondern auf alle Sachen, die im Forschungsprozess entstehen.
Und ein wichtiger Pfeiler davon sind eben die Forschungsdaten, die einerseits es möglich machen, Sachen nachzuvollziehen, die Transparenz schaffen und die aber inzwischen eben zum Beispiel auch von Förderern tatsächlich eingefordert werden, dass diese auch mit zur Verfügung gestellt werden.
Und die FAIR-Präzipien sind für Sie wahrscheinlich auch nichts Neues. Das ist aber, wollte ich nochmal sagen, sind also die Leitlinien, die man sich nehmen kann, um die Forschungsdaten zu publizieren. Und da geht es einerseits darum, dass Forschungsdaten, wenn sie publiziert sind, auffindbar
sein sollten, dass sie zugänglich, also accessible sein sollten, interoperabel, also zwischen verschiedenen Systemen. Und dass sie so aufbereitet sein sollten, dass sie natürlich auch nachgenutzt werden können. Nun ist es aber so, dass nicht in allen Fachdisziplinen oder bei allen Publikationen diese FAIR-Präzipien in allen Maßen umgesetzt werden.
Und ich habe mich jetzt auf diesen ersten Part nämlich die Auffindbarkeit gestützt, weil das natürlich quasi die Voraussetzung dafür ist, um alles andere mit diesen Forschungsdaten zu machen.
Weil wenn ich sie nicht finde, dann kann ich sie natürlich auch nicht nachdutzen oder irgendwas anderes damit machen. Genau, und das ist nicht ganz trivial. Wie gesagt, wenn die FAIR-Präzipien nicht so stringent überall durchgezogen sind, bedeutet das eben, dass im Gegensatz zu den Standards, die es bei Textpublikationen schon gibt, bei Forschungsdatenpublikationen eben nicht zum Beispiel immer in einem Repositorium liegen, wo sie mit
einem persistenten Identifikator verknüpft sind und möglicherweise auch eine Verknüpfung zu der Publikation besteht. Das heißt, wenn das eben nicht immer der Fall ist, haben wir ein Problem, dass wir das nicht über diese Wege finden können.
Genau, das ist aber wichtig. Neben dem wissenschaftlichen Aspekt, das es uns als Wissenschaft weiterbringt, ist es auch für Institutionen wichtig, Open-Data-Publikationen zu finden, um eben Entwicklungen zu verfolgen, um zu schauen, ob Förderrichtlinien eingehalten wurden. Und das wird inzwischen zum Beispiel in der Charité in Berlin auch dazu genutzt, um solche Open-Data-Praktiken zu incentivieren.
An der Charité wurde ein Dashboard on Responsible Research entwickelt, das eben dazu dient, für die eigene Einrichtung quasi das nachzuvollziehen und dann in der leistungsorientierten Mittelvergabe diejenigen Forschenden auch zu belohnen, die das quasi schon umsetzen.
Das ist auch das, worauf ich mich quasi beziehe und was ich auch nachnutze. Deswegen habe ich das hier so nochmal erwähnt. Genau, und was ich schon gesagt habe, es ist wichtig, aber es gibt verschiedene Herausforderungen. Es gibt kein zentrales Register, kein Standardweg der Veröffentlichung und eben diese Fair-Kriterien sind nicht immer erfüllt.
Deswegen Open-Data systematisch zu erfassen, wie zum Beispiel für eine Institution, ist schwierig. Und dieses Dashboard on Responsible Research nutzt einen Weg, der das quasi versucht indirekt zu erfassen.
Und zwar ist das ein Text-Mining-basiertes Verfahren, das nennt sich oddpub. Und das dient dazu automatisiert, die Publikation, eine Menge an Publikationen zu durchsuchen nach bestimmten Begriffen, Wortgruppen, Verlinkungen, die darauf hindeuten, dass es eine Publikation von Daten gibt.
Ein paar Beispiele habe ich Ihnen hier mitgebracht. Das sind jetzt schon recht günstige Fälle, weil die in dem sogenannten Data Availability Statement zusammengefasst sind, dass man das also in einem bestimmten Abschnitt in einem Artikel auch findet.
Hier aber nochmal als Illustration dieses Problems. Hier sind also Daten veröffentlicht, die aber zum Beispiel auf Webseiten wie GitHub oder dem Open Science Framework nicht mit diesen standardisierten PIDs abgelegt sind. Und deswegen nicht so leicht unabhängig auffindbar sind.
Und solche Sachen werden quasi identifiziert und dieser Algorithmus klassifiziert dann, ob diese Publikation Hinweise auf Open Data enthält. Auch Open Code, also Skripte, Software und Source Code und sowas. Aber mein Fokus war auf jeden Fall auf den Daten.
Und meine Frage, mit der ich mich dann beschäftigt habe, ist, ob ich diesen Algorithmus nehmen kann und ob er geeignet ist, um Open Data zu identifizieren, die mit Textpublikation meiner wissenschaftlichen Einrichtung verbunden ist. Also quasi einen Test, ob ich das übertragen kann auf einen etwas anderen Kontext.
Genau, wie ich schon gesagt habe, habe ich also diesen Textmining Algorithmus Otpub genutzt. Also nachgenutzt, der ist veröffentlicht, den kann man auch nachnutzen. Der wird auch noch weiterentwickelt. Ich habe ihn also quasi bei mir zum Laufen gebracht und dann genutzt.
Und dann hatte ich das Glück, dass zu der Zeit von meiner Masterarbeit vom Verlag PLoS, also Public Library of Open Science, ein Vorreiter Verlag für Open Science, die auch selber Forschung über ihre eigenen Publikationen und Entwicklungen in diesen Publikationen machen und die haben einen Open Science Indicators Datensatz veröffentlicht,
bei dem sie sich quasi angeschaut haben, inwieweit für ihre Publikationen in ihrem Verlag Daten mit veröffentlicht werden, Code mit veröffentlicht werden, ob es da Preprints gibt usw. Und den haben sie auch im Sinne des Open Science Gedankens veröffentlicht, sodass man sich auch diese Daten und die Klassifikationen,
die mit einem anderen Klassifikations Algorithmus gemacht wurden, nämlich mit einem Natural Language Processing Model von DataSeer, die kann man sich quasi extrahieren. Das habe ich auch getan, um eben zu schauen, ob diese etwas andere Art von Klassifikation, wie die im Vergleich abschneidet.
Und dann habe ich mir sozusagen diese Publikation noch manuell angeschaut. Das heißt, ich habe mir die tatsächlich alle einzelne angeschaut und sozusagen selber nach Vorkommen von Open Data geschaut. Natürlich auch nach bestimmten Kriterien und dann entschieden, ob
es tatsächlich eine Datenveröffentlichung oder eine Code Veröffentlichung dazu gibt. Gemacht habe ich das mit einer exemplarischen Stichprobe an 137 Publikationen von AutorInnen der TU Dresden bzw. Universitätsklinikum Dresden.
Und aufgrund dieses Vergleichs beschränkt sich diese Stichprobe eben auf die Publikationen in PLoS Journals und auch diesen Jahresbereich von 2019 bis 2022, weil das eben quasi diejenigen aus diesem Datensatz extrahiert waren, wo ich diese zweite Klassifikation quasi nicht selber machen musste, sondern mir das übernommen habe.
Genau, diese Anteil an Publikationen habe ich jetzt dann also diesen Text-Mining-Algorithmus übergeben. Ich habe den drüber laufen lassen und habe dann mir erstmal angeschaut, was findet der denn überhaupt an Open Data Publikationen.
Das ist jetzt so ein bisschen ein kleiner Einblick. Man sieht glaube ich ein bisschen schlecht das Helle, aber das Wichtige ist, sind die Open Data, also das sind der Anteil an Publikationen, der dieser Algorithmus Open Data klassifiziert hat, also so ungefähr bei 60 Prozent und Open Code ist deutlich niedriger.
Das ist also nicht ganz so verbreitet auch in diesen schon sehr auf Open Science ausgerichteten Verlag, der sogar in vielen Zeitschriften so eine mandatory Policy hat, also dass man quasi eigentlich Forschungsdaten veröffentlichen muss. Das sei nochmal hinzugesagt.
Wie gesagt, diese Stichprobe zieht sich auf PLoS Journals und die sind natürlich im Vergleich zu der Gesamtanzahl von Publikationen in der Wissenschaftswelt relativ weit, was Open Science angeht. Genau, der andere Algorithmus, also der von PLoS, da ist es so, dass mehr Publikationen als Open Data klassifiziert werden.
Zu den Gründen komme ich dann gleich noch, aber im Prinzip ist ja das Wichtige, was ich mir anschauen wollte, inwieweit die beiden vergleichbar sind. Zunächst mal kann man festhalten, dass die Klassifikationen zu 80 Prozent übereinstimmen, es aber natürlich auch Unterschiede gibt.
Und was man dann machen kann, um sich das genauer anzuschauen, ist natürlich die Klassifikation zu vergleichen mit meinem quasi Standard der manuellen Codierung. Und dazu gibt es verschiedene Maße und Bewertungsmetriken, die man normalerweise nimmt, um Klassifikationen zu beurteilen.
Ich werde jetzt nicht auf alle einzelnen Sachen eingehen, das ist eher für diejenigen, die sich damit so ein bisschen auskennen und sich selber ein bisschen erschließen wollen. Aber quasi oben haben wir Open Data und oben die Sachen für Open Code. Und das Wichtigste, was man sich da anschaut und jetzt hier nicht so ganz gut sieht, ist der F-Score.
Das ist sozusagen ein Maß für die insgesamt Klassifikationsgüte. Und man sieht hier die Teile für ODPUB und hier diese Teile für Datacere, dass die sehr vergleichbar sind. Und dass sich das aber, wenn man das getrennt, sich nochmal anschaut
nach der Präzision der Klassifikation, dass der ODPUB-Algorithmus etwas besser abschneidet. Das aber beim Recall bedeutet, wie viele von den tatsächlich existierenden Open Data Publikationen werden entdeckt, dass da der Datacere-Algorithmus besser abschneidet als der ODPUB, die Klassifikation.
Das heißt, es gibt Unterschiede, wie solche Sachen gewichtet werden. So ähnlich oder in ähnlicher Weise sieht man das auch beim Open Code, dass es da Unterschiede gibt. Da muss man allerdings hinzu sagen, dass die Klassifikationsgüte allgemein etwas niedriger ist. Das ist also anscheinend schwieriger oder das ist noch nicht so gut.
Und dass insbesondere bei dem ODPUB-Algorithmus die Klassifikationsgüte sehr viel niedriger ist als bei dem anderen. Genau, hier nochmal in Worten ausgedrückt, also die beiden Klassifikationen haben eine ähnliche Klassifikationsgüte. Die Präzision des ODPUBs ist größer, dafür ist aber der Recall kleiner.
Das bedeutet, in Worten ausgedrückt, dass Datacere zwar fast alle tatsächlichen Veröffentlichungen von Forschungsdaten findet, aber manche fälschlicherweise als Open Data identifiziert, die gar keine wirklichen Forschungsdatenpublikationen sind. Und umgekehrt, ODPUB weniger fälschlicherweise klassifiziert, aber dafür einige tatsächlich Open Data enthaltene Publikationen nicht findet.
Genau, man kann sich das auch noch so anschauen, das ist eine sogenannte Konfusionsmatrix. Das ist quasi eigentlich nur eine andere Darstellung von dem, was ich schon gesagt habe.
Das andere, was man hier sehen kann, ist, dass zum Beispiel für Datacere hier im Vergleich zu der manuellen Kodierung, das sind die tatsächlichen Open Data Publikationen und 75 davon hat Datacere gefunden, dafür aber 29 quasi als Open Data klassifiziert, die eigentlich gar keine sind.
Und Beispiele für solche Abweichungen von der manuellen Kodierung sind insbesondere bei Datennachnutzung. Also als Open Data definiert sind Sachen, die selbst erstellt wurden und dann veröffentlicht wurden. Aber in einem Beispiel wie diesem hier, das Data Availability Statement, das ich hier mitgebracht habe,
ist es sozusagen eigentlich nur nach intellektueller Prüfung quasi sehr offensichtlich, dass hier kein eigener produzierter Datensatz veröffentlicht wurde, sondern verlinkt wird auf den Datensatz, den diese Studie genutzt hat. Was sozusagen deswegen eine etwas schwierigere Unterscheidung ist.
Und was natürlich der Algorithmus auch nicht, weil er in der Natur der Sache liegt, der prüft halt nicht, ob der Link funktioniert. Und wenn er fehlerhaft ist, zählt es halt eigentlich auch nicht. Genau, das nochmal zur manuellen Kodierung zusammengefasst.
Kann ich sagen, dass das erprobte Textmining-Verfahren OTTPUB geeignet ist, um wissenschaftliche Textpublikationen automatisiert nach Open Data zu durchsuchen. Ich konnte das also quasi den Algorithmus nachnutzen und übertragen. Und er bietet eben bei dieser heterogenen Publikationspraxis von Forschungsdaten, mit der
wir im Moment quasi leben oder leben müssen, ermöglicht das eine systematische Erfassung. Es ist jedoch aber so, dass die konkrete Nutzung der betrachteten Algorithmen je nach Zielsetzung abgewogen werden sollte. Wenn ich also Wert darauf lege, eine möglichst präzise Erfassung zu machen, wie das zum Beispiel bei dem OTTPUB in der Charité der Fall ist,
wenn ich das also heranziehe, um tatsächlich Forschende dafür zu belohnen, dass sie Open Data Praktiken machen, sollte ich dann natürlich auch diejenigen finden, die das auch tatsächlich gemacht haben. Wohingegen, wenn ich eine möglichst vollständige Erfassung machen möchte, zum Beispiel wenn ich Trends verfolgen will, wenn ich Entwicklungen verfolgen will,
ist möglicherweise eben eine umfassendere Erfassung viel wichtiger als die Präzision und dann wäre eben dieser andere Algorithmus geeigneter. Natürlich gibt es immer Verbesserungsbedarf. Ich bin jetzt auf jeden Fall keine, die selber Algorithmen weiterentwickelt. Ich nutze die nur und probiere die aus, aber es besteht auf jeden Fall Verbesserungspotenzial, insbesondere bei dem Open Code.
Und da wird auch dran gearbeitet und das entwickelt sich ja auch weiter. Und es werden auch in Zukunft mehr von diesen gesicherten Qualitätskriterien wie FAIR Kriterien, dass Daten in Repositorien abgelegt werden und nicht auf irgendeiner Webseite eben
mehr Einfluss oder sozusagen wichtiger sein sollten für die Klassifikation als Open Data. Genau. Hier noch ein paar der Referenzen. Sie kriegen ja die Folien dann auch im Anschluss. Und ich bedanke mich für die Aufmerksamkeit und stehe natürlich für Fragen zur Verfügung.
Ganz herzlichen Dank, Katharina Zinke. Und jetzt frage ich, gibt es Fragen? Sie können sowohl im Raum Fragen stellen an den Mikrofonen oder im Streaming auch über die Chatfunktion.
Das sehe ich dann hier und kann das weitergeben. Einfach aufstehen und nach vorne treten. Wenn niemandem was einfällt, dann würde ich mal eine Frage stellen, um das Eis zu brechen. Ich habe mich gefragt, also an der ZBW entwickeln und trainieren wir tatsächlich verschiedene Learning Modelle für die Inhaltserschließung.
Und ich habe mich gefragt, es waren jetzt zwei Algorithmen und sie haben beide sowohl auf Daten als auch auf Code angesetzt. Und einer von beiden war ja für Code sehr viel schlechter als für Daten. Und da würde ich mich dann zum Beispiel in meinem Team gleich fragen, warum man
da nicht zwei verschiedene Modelle für einmal Code und einmal Daten trainiert oder benutzt auch? Ja, ich muss sagen, dass ich ja jetzt nicht an der Entwicklung dieser Algorithmen in irgendeiner Weise beteiligt bin. Mein Eindruck ist, dass die, also erstens dieser Textmining-Algorithmus ist, glaube ich, nicht mit einem sehr ausgefeilten Trainingsprozess entstanden.
Ich glaube, was ich jetzt inzwischen über KI gelernt habe, gibt es da inzwischen viel, viel ausgefeiltere Sachen, sodass das vielleicht daran liegt. Die andere Sache ist, dass natürlich auch der Gedanke wäre, ob man
dann verschiedene Sachen kombiniert, um eben insgesamt zu einer besseren Klassifikation zu kommen. Und generell muss man aber sagen, dass gerade bei Code, bei der Veröffentlichung von Software, noch viel weniger als bei den Forschungsdaten es quasi eine Einheitlichkeit gibt, wie das veröffentlicht wird, wie das beschrieben wird, wo das beschrieben wird.
Und deswegen ist es, glaube ich, auch eine schwierigere Aufgabe quasi für uns und auch für die Klassifikation. Gibt es weitere Fragen in beliebigen Sprachen? Ich versuche es dann zu übersetzen, was auch immer es ist.
Große Herausforderung. Jetzt mal jemand in einen. Online gibt es aktuell auch keine, trauen Sie sich? Da ist er, ja, bitte.
Heike Renner-Westermann, FID Linguistik. Ich habe ein bisschen eine abwegige Frage. Wir sind interessiert daran, zu dokumentieren, welche Forschungsdaten, welche Corpora in welchen Publikationen überhaupt verwendet werden.
Jetzt nicht spezifiziert auf Open Data. Glauben Sie, eine der beiden Algorithmen wären geeignet, um so eine Suche, so einen Nachweis auch rauszukriegen, dass wir den einsetzen können? Dazu müsste ich, glaube ich, ein bisschen mehr wissen. Also das kommt ja sehr darauf an, wie in den Arbeiten auf diese Corpora verwiesen wird.
Und dafür kenne ich mich einfach überhaupt nicht aus, weil es gibt ja durchaus Fachkulturen, wo sozusagen die Sachen, die man von anderen nachnutzt, quasi wie zitiert werden und auch sozusagen wirklich so eine Zitation beinhalten.
In anderen Fachkulturen ist das aber nicht, absolut nicht üblich. Und das wäre sozusagen, glaube ich, die erste Frage, die man darüber nachdenken müsste, inwieweit das sozusagen relativ üblich ist und wie darauf verwiesen wird. Aber grundsätzlich könnte ich mir vorstellen, wenn das zumindest in einer ähnlichen Weise,
also das geht ja quasi auch immer um Beschreibungen, die dann gefunden werden müssen. Und wenn das in ähnlicher Weise quasi methodisch beschrieben wird, auf welche Corpora und die müssen dann natürlich irgendwie einen Identifier oder Link oder irgendwas haben, um sie irgendwie identifizieren zu können und dann miteinander in Verbindung zu setzen.
Also erst die normierte Zitation und dann das gute Finden. Naja, das würde ich nicht unbedingt sagen, weil das, was wir hier haben, sind ja auf jeden Fall keine normierten Zitationen. Keine von diesen Forschungsdatenpublikationen sind im Paper tatsächlich zitiert, aber es müsste zumindest sozusagen sowas wie ein Wording geben.
Ich habe den Text Corpora von so und so irgendwie genutzt.