We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Auffinden von Open Data in Textpublikationen – Ein systematischer Vergleich von Klassifikationsalgorithmen

00:00

Formale Metadaten

Titel
Auffinden von Open Data in Textpublikationen – Ein systematischer Vergleich von Klassifikationsalgorithmen
Serientitel
Anzahl der Teile
13
Autor
Mitwirkende
Lizenz
CC-Namensnennung 3.0 Deutschland:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache

Inhaltliche Metadaten

Fachgebiet
Genre
Abstract
Ein wichtiger Pfeiler nachvollziehbarer und reproduzierbarer Forschung ist der offene Zugang zu Forschungsergebnissen. Dazu gehört, zunehmend festgelegt in Projektförderbedingungen, die Veröffentlichung der im Forschungsprozess entstandenen Daten als Open Data. Die Publikation von Daten wird momentan, je nach Disziplin, sehr unterschiedlich praktiziert. Dies erschwert eine systematische Erfassung von Open Data, etwa über persistente Identifikatoren bzw. Relationen zwischen Text- und Datenpublikationen. Ein an der Charité Berlin entwickelter Text Mining Algorithmus zur automatisierten Identifikation von Open Data in Textpublikationen (ODDPub) bietet dafür eine mögliche Lösung. Das Vorgehen wurde hier anhand einer Stichprobe von Publikationen der TU bzw. des Universitätsklinikums Dresden erprobt und systematisch mit den Klassifikationsergebnissen des DataSeer Natural Language Processing Modells (extrahiert aus dem PLOS Open Science Indicators Datensatz) und einer manuellen Kodierung verglichen. Die beiden automatisierten Klassifikationen stimmen zu einem großen Teil überein und haben vergleichbare F1-Scores, eine Metrik zur Bewertung von Klassifikationsmodellen. Allerdings hat ODDPub eine etwas höhere Precision als DataSeer, während DataSeer einen höheren Recall aufweist. D.h. DataSeer findet zwar fast alle tatsächlichen Datenpublikationen, identifiziert dafür aber einige fälschlicherweise als Open Data, während ODDPub weniger falsch klassifiziert, dafür aber einige tatsächlich Open Data enthaltende Publikationen verpasst. Abweichungen von der manuellen Kodierung fanden sich für beide Algorithmen u.a. für die Identifikation von Datennachnutzung oder bei fehlerhaften Verlinkungen. Im Vortrag stelle ich das Vorgehen und die Ergebnisse der Untersuchung dar, wäge die Nutzungsmöglichkeiten der beiden Verfahren gegeneinander ab und geben einen Ausblick auf mögliche Weiterentwicklungsszenarien zum standardisierten Auffinden veröffentlichter Forschungsdaten.
Schlagwörter
Computeranimation
Computeranimation
Computeranimation
ComputeranimationVorlesung/Konferenz
Vorlesung/Konferenz
Vorlesung/Konferenz
Vorlesung/Konferenz
Computeranimation