We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Erweiterung der OpenAPC-Infrastruktur im Rahmen von openCost

00:00

Formal Metadata

Title
Erweiterung der OpenAPC-Infrastruktur im Rahmen von openCost
Title of Series
Number of Parts
32
Author
License
CC Attribution 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Computer animation
Computer animation
Computer animation
Computer animation
Computer animation
Computer animation
Computer animation
Transcript: German(auto-generated)
So, erstmal vielen Dank für die Einführung. Ich bin etwas größer, muss es etwas höher werden. Ich glaube, ist es so in Ordnung? Okay, prima. So, erstmal vielen Dank für die Einführung.
Und ich glaube, das war auch gar nicht die erste Folie, ob es lang war. Genau, vielen Dank für die Einführung, Frau Ohren, und auch erstmal von mir einen schönen guten Tag in die Runde. Es freut mich, dass so viele den Weg in unsere Session gefunden haben. Ja, genau, wie Frau Ortsson angekündigt hat, möchte ich heute
Ihnen die ersten Testdaten der angestrebten Erweiterung der OpenAPC-Infrastruktur vorstellen, die halt im Rahmen des OpenCost-Projekts entstehen soll. So, und damit steigen wir auch ohne große Umschweife direkt ins Thema ein.
Vielleicht vorab noch ein paar Worte zu OpenAPC für diejenigen, die es vielleicht noch nicht kennen. Die OpenAPC-Initiative sammelt und veröffentlicht Datensätze über Gebühren für Open Access-Veröffentlichungen. Tut dies unter einer offenen Datenbanklizenz.
OpenAPC wurde 2014 als Open Data-Projekt an der Universitätsbibliothek Bielefeld initiiert und ist seit Oktober 2020 verstetigt. Wir haben insgesamt drei große Datensätze, in denen wir Daten zum kostenpflichtigen Open Access publizieren, sammeln, aufbereiten und visuell darstellen.
Also zunächst haben wir unseren OpenAPC-Datensatz. Mit diesem hat das ganze Projekt begonnen und ist daher auch unser umfangreichster der drei Datensätze.
In einem nächsten Schritt sind wir dazu übergegangen, da zu Transformationsverträgen wie die zu sammeln und in einem eigenen Datensatz zu aggregieren. Der jüngste Datensatz enthält Kostendaten zu Open Access Monographien, also BPCs, und vielleicht noch mal zur Verdeuchung ein paar aktuelle Statistiken zu unserem APC-Datensatz.
Wir haben dort insgesamt Kostendaten von 381 Institutionen aggregiert. Auf Artikel-Ebene runtergebrochen haben wir also Daten zu über 167.000 Artikel mit einer Gesamtsumme von über 321 Millionen Euro.
Ziele von OpenAPC sind natürlich, Kostentransparenz und Vergleichbarkeit zwischen Institutionen zu ermöglichen. Wir haben 2014 angefangen und da wir aber auch retrospektiv noch Kostendaten erfassen,
lassen sich also auch Kostenentwicklungen über die Zeit dadurch ablesen. Und dann können diese Daten natürlich auch Grundlage für Entscheidungen im Rahmen der Open Access-Transformation sein. So, mit der OpenAPC-Initiative ist die Universitätsbibliothek Bielefeld Teil des
Projekts OpenCost. Vor Ort hat vorhin einen langen Titel gerade schon erwähnt. Den Untertitel automatisierte standardisierte Lieferungen und offene Bereitstellung von Publikationskosten und Verlagsvereinbarungen. Es handelt sich um ein DSG-gefördertes Projekt, das noch relativ
neu ist. Und neben der Universitätsbibliothek Bielefeld sind die weiteren Partnerinstitutionen noch das Deutsche Elektronen-Synchrotron in Hamburg sowie die Universitätsbibliothek Regensburg. Und im Folgenden möchte ich ein paar Punkte von dem neuen Projekt vorstellen, die dann auch Einfluss auf die Erweiterung von OpenAPC haben.
Ziel des OpenCost-Projekts ist es, eine technische Infrastruktur zu schaffen, mit der Publikationskosten über standardisierte Schnittstellen und Formate freizugängig abgerufen werden können.
Und dann natürlich auch nachgenutzt werden können, wie für Kostenauswertungen, Monitoring und so weiter. Also es geht zum einen halt um Kostentransparenz innerhalb einer Einrichtung, aber auch um Kostenvergleiche zwischen Einrichtungen. Dafür sollen dann möglichst alle Publikationskosten wissenschaftlicher Einrichtungen nachgewiesen werden.
Um das zu erreichen, beinhaltet das Projekt drei Schwerpunkte. Um Kostentransparenz zu ermöglichen, ist die erste Voraussetzung, dass die Kosten in einem maschinenlesbaren und standardisierten Format erfasst werden können. Daher wird zunächst ein Metadatenschema entwickelt, was natürlich dann ebenfalls für den Austausch und die Übertragung der Daten benötigt wird.
Also das Metadatenschema ist dann die Grundlage für das Harvesting, was in einem nächsten Schritt ausgebaut werden soll. Der dritte Schwerpunkt des Projekts ist die Erweiterung der EZB, um Informationen zu Open Access Publikationskosten.
Im Folgenden werde ich jetzt aber nochmal kurz auf die ersten beiden Bausteine eingehen, da diese dann auch für die Erweiterung der Open APC Struktur entscheidend sind. Wie gesagt, für die Transparenz und Vergleichbarkeit ist ein standardisiertes Schema unerlässlich.
Und wie Frau Barbers auch schon erwähnt hat, sollen dann neben den klassischen APCs und BPCs weitere Kostendaten erfasst werden, wie Page Charges oder Color Charges. Und diese ganzen Aspekte werden dann in einem Open-Cost-Projekt erarbeitet und zur Diskussion gestellt.
Bei der Erfassung und Transparenz gibt es, wie gesagt, bei der Erfassung von den Daten gibt es dann natürlich auch einen Anknüpfungspunkt an das DFG-Projekt. Open Access Publikationskosten, wie Frau Barbers auch schon herausgestellt hat, sodass wir uns
auch innerhalb des Open-Cost-Projekts stetig mit den Kollegen aus Jülich koordinieren. Mit dem Open-Cost-Projekt verfolgen wir aber einen etwas generischeren Ansatz. Das Metadatenschema soll unabhängig von konkreten Diensten und Anwendungen nutzbar sein.
Also wir wollen einen Datenschema dann entwickeln, das beispielsweise auch von Institutionen in England, Frankreich problemlos nachgenutzt werden könnte. Langfristig halten wir da natürlich auch unsere Dienstleistung OpenAPC im Blick. Wenn es um die Erfassung von Kosten geht, sieht es im Moment so aus, dass wir bei OpenAPC nur ein Feld im Datensatz haben für Kosten.
Unser Eurofeld, das zeige ich später nochmal, in dem werden halt die APCs erfasst. Genau, was bisher nicht dazu gehört, sind halt genau die erwähnten Zusatzkosten, um die es bei OpenCost geht.
Das wollen wir dann jetzt bei OpenAPC angehen und so erweitern, dass zukünftig auch diese Open-Cost-Daten erfasst und dargestellt werden können. Erste Testergebnisse zeige ich dann gleich zum Abschluss der Präsentation noch.
Kommen wir nochmal zum nächsten Baustein des Projekts, dem Harvesting, also dem systematischen Einsammeln von Metadaten oder in unserem Fall Kostendaten. Bisher erfolgt die Datenmeldung an OpenAPC, zum größten Teil mittels Dateien im CSV-Format per E-Mail, meistens oder teilweise auch über GitHub.
Es gibt allerdings schon einige Institutionen, die ihre APCs in ihre institutionellen Repositorien einspielen und diese Harvesten wir dann auch über eine OI-PMH-Schnittstelle.
Momentan ist es aber tatsächlich eher so, dass es noch ein wenig informell abläuft, also das Austauschschema ist zurzeit noch nicht spezifiziert und nicht einheitlich. Das ist dann auf jeden Fall ein Desiderat an das Open-Cost-Projekt, also das Aufsetzen eines Schemas fürs Harvesting.
Dabei wird auch hier auf die OI-PMH-Schnittstelle gesetzt, weil das bei jedem Repositorium möglich ist. Der Vorteil des Harvesting ist natürlich, dass die Ablieferung der Daten durch die Bereitstellung der
Daten ersetzt werden kann, was natürlich eine Erleichterung auf lange Sicht für die einzelnen Institutionen bedeutet. Und in dem Projekt selber wird es in einer ersten Testphase exemplarisch bei den Projektpartnern implementiert, um dann Daten für OpenAPC bereitzustellen.
Langfristig wollen wir natürlich auch ein bisschen dafür werben, dass natürlich weitere Institutionen ihre Daten über Repositories eingeben in unserem Open-Cost-Meter-Datenschema.
Nach diesen theoretischen Erläuterungen stelle ich Ihnen jetzt den Pilotversuch vor, von uns zusätzliche Kostenarten in OpenAPC zu aggregieren.
Für diesen Testcase haben wir dann Daten von zwei Joint-2-Einrichtungen aggregiert. Zu Joint-2 hören wir jetzt gleich im Folgenden noch etwas mehr. Und wichtig für unseren Zusammenhang ist jetzt einfach, dass viele Joint-2-Institutionen schon
seit Jahren alle Publikationskosten in ihren Repositorien erfassen, also nicht nur APCs, sondern auch Zusatzkosten. Und diese können dort direkt auch über eine OI-PMH-Schnittstelle geharristet werden. Wir haben jetzt einen Pilotversuch durchgeführt mit Daten von zwei Einrichtungen, vom DESE in Hamburg und im Forschungszentrum in Jülich.
So, wie sind wir dabei genau vorgegangen? Also, zunächst haben wir die Rohdaten geharristet und anschließend zunächst Daten herausgefiltert, die jetzt für unseren Open-APC-Zusammenhang nicht relevant sind oder nicht gesammelt werden.
Das waren Daten zu Closed-Access-Publikationen oder Nicht-Zeitschriften-Artikel. Die übrigen Daten haben wir dann nach unserem üblichen Vorgehen mit Metadaten angereichert. Und allerdings ist es so, dass wir unsere Open-APC-Harvesting-Routinen dann halt in den letzten Wochen für diesen Testcase angepasst haben,
dass halt neben den APCs zusätzliche Kostendaten mit erfasst und mit extrahiert werden. Und unser Lösungsansatz sieht jetzt erst mal so aus, dass wir unseren
Kerndatensatz, den wir bisher haben, wo die APCs erfasst werden, nicht verändern, sondern diese extrahierten Zusatzkosten in eine separate Datei packen. Und über die DOI sind diese Daten dann mit dem Kerndatensatz verknüpft.
Das sieht man hier nochmal ein bisschen. Also oben ist unser Kerndatensatz mit den APC-Kosten, der in der Spalte Euro zu finden ist und noch weitere Metadaten. Und unten sind dann sozusagen die zusätzlichen Kosten, die wir halt bisher nicht berücksichtigt haben.
Und dann zu der Analyse der Testdaten. Also der Datensatz umfasst insgesamt 1.880 Artikel, 292 von DESE und 1.588 vom Forschungszentrum Jülich. Alle publiziert bzw. bezahlt im Zeitraum von 2012 bis 2022.
Und es ist so, dass alle Artikel eine APC aufweisen. Wenn wir das jetzt mal mit den Extrakosten vergleichen, dann stellt man schon fest, dass diese nicht so häufig dann vorkommen.
Also beispielsweise bei den Color Charges haben wir ein Vorkommen von 36, sprich von 1.880 Artikeln hatten 36 zusätzlich noch Color Charges. Aber wenn man sich die Kosten dazu ansieht, also einmal die Gesamtkosten und aber auch den Milliarden dieser Color Charges, dann sieht man schon, dass die relativ hoch sind.
Also hier mit 1.800 für Color Charges und eine Gesamtsumme von über 60.000. In einem nächsten Schritt haben wir dann noch die Kosten nach Verlagen aufgespaltet.
Wir haben hier die Publisher aus den Artikeln rausgepickt, die sozusagen am häufigsten vorkommen. In der Praxis sind das glaube ich diejenigen mit mehr als 40 Einträgen gewesen. Und was wir hier eben schon sehen, ist, dass sich die Zusatzkosten relativ ungleich über die Verlage verteilen.
Also dieser hellgrüne Teil, der den größten Anteil im Balken ausmacht, das sind sozusagen die ganz klassischen APCs, die wir bisher auch immer erfasst haben.
Und alles andere sind die Zusatzkosten. Und wie gesagt, wenn man sich das anschaut, gibt es ein paar ganz interessante Einsichten, wie ich finde. Als Beispiel pick ich mal Oxford University Press heraus. Und da sehen wir ja, dass der Anteil von Zusatzkosten im Verhältnis zu den APCs schon recht hoch ist.
Also wir haben relativ viele Color Charges zum Beispiel gezahlt, was im Bereich des elektronischen Publizierens auch mal ein interessanter Aspekt ist, möchte ich mal sagen. Und zum anderen sieht man dann aber auch, dass bei den reinen OA-Publishern, wie Frontiers oder MDPI, die Zusatzkosten eher nicht erhoben werden.
Das fasst auch nochmal diesen Grafik ganz schön zusammen. Wie gesagt, die meisten Zusatzkosten treten halt beim Hybrid-OA-Publizieren auf und bei den Gold-OA-Publishern eher seltener.
So, und dann bin ich dann tatsächlich auch schon bei meiner letzten Folie. Zwei Minuten habe ich noch, das passt ja. Und die Folie fasst jetzt auch nochmal einige Erkenntnisse zusammen, die wir jetzt im Zusammenhang mit diesem Pilotversuch herausgearbeitet haben.
Also zunächst einmal ist es so, dass das Aggregieren von zusätzlichen Kostendaten OpenAPC problemlos möglich ist. Und diese Daten, die ich gerade gezeigt habe, die zeigen auch, dass
wir diese Zusatzkosten oder Daten zukünftig auch auf jeden Fall mit berücksichtigen sollten, weil sie in einigen Fällen halt auch ein vollständigeres Bild vermitteln können, als beispielsweise bei Oxford University Press. Und wie gesagt, die Daten zeigen, dass sich die Zusatzkosten halt
bei bestimmten Verlagen häufen und insbesondere beim Hybriden Open Access publizieren. Aber natürlich bei den Testdaten darf man jetzt auch nicht außer Acht lassen, dass wir einen gewissen Bias in den Daten haben. Das sind weniger als 2000 Artikel. Beide Datensätze stammen von außeruniversitären Forschungseinrichtungen, die mindellastig ausgerichtet sind.
Jedoch denke ich schon, dass der Versuch jetzt erste interessante Kenntnisse liefert, die zeigen, dass es sich auf jeden Fall lohnt, diese Zusatzkosten zukünftig mit OpenAPC aufzunehmen und darzustellen.
So und dann bedanke ich mich und freue mich auf Fragen.