Erweiterung der OpenAPC-Infrastruktur im Rahmen von openCost - TIB AV-Portal

Erweiterung der OpenAPC-Infrastruktur im Rahmen von openCost

00:00

17

Universitätsbibliothek Bern

Bartlewski, Julia Broschinski, Christoph

Formal Metadata

Title

Erweiterung der OpenAPC-Infrastruktur im Rahmen von openCost

Title of Series

Open-Access-Tage 2022

Number of Parts

32

Author

Bartlewski, Julia

Broschinski, Christoph

0000-0003-1972-7587 (ORCID)

License

CC Attribution 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.

Identifiers

10.5446/59472 (DOI)

Publisher

Universitätsbibliothek Bern

Release Date

Language

Content Metadata

Subject Area	Information Science
Genre	Conference/Talk

Open-Access-Tage 20225 / 32

1

14:53

Zusammenarbeit und Vernetzung von Fördergebern auf nationaler und internationaler Ebene

2

13:09

Gemeinsam zu 100% OA - Ein Beispiel aus dem SNF

3

16:34

Kollaboration im Kontext der FWF Open Access-Policy

4

18:22

DFG Open Access Publikationskosten: Anforderungen des Monitoring-Verfahrens

5

17:22

Erweiterung der OpenAPC-Infrastruktur im Rahmen von openCost

6

16:03

Open-Access-Publikationskosten @ JOIN²

7

16:00

Neue Standards braucht das Land

8

24:58

Diamanten teilen: Ergebnisse einer TU9-Standortanalyse für kollaborative Ansätze zur Förderung von Open-Access-Büchern

9

20:50

Co-Publishing von Open Access-Monographien – Erfahrungen der Universität Stuttgart und dem KIT

10

15:01

Open-Access-Transformation komplementär zu DEAL: Der Arbeitskreis Forum 13+

11

13:54

Werkstattbericht Berlin Universities Publishing

12

16:33

Nachgefragt: Erhebung zu Bedürfnissen zur erfolgreichen Transformation des Publikationssystems

13

14:35

OA Monitoring von Transformative Agreements bei Elsevier und Springer Nature

14

12:48

Das FROST-Prinzip. Kollaboration von Open-Science-Team und Fachreferaten an der UB Bern

15

17:38

Forschungslücken im Bereich Open-Access-Wirkungen

16

19:57

Wie Open-Access-Projekte Kollaboration ermöglichen durch Werkzeuge, Infrastruktur und Wissensvermittlung

17

33:40

Gemeinsam mehr erreichen - Mit Kollaboration zur Transformation

18

15:10

Warum hören Wissenschaftler:innen nicht auf die Open-Science-Spezialist:innen?

19

18:39

HOAD: Data Analytics für mehr Transparenz bei Open-Access-Transformationsverträgen

20

15:37

Auf dem richtigen Weg? Institutionelles Diamond-OA-Publizieren in der Schweiz

21

18:15

Konsortiale Verträge als Beitrag zur Entwicklung von Open Access

22

14:25

Ein Open Access Monitor für die Schweiz

23

35:37

Scholarly publishing is broken. How do we fix it?

24

23:28

Persistent Identifier in Open-Access-Publikationsworkflows

25

20:48

It takes a village to curate metadata!

26

17:46

Scholar-led Open Access in den Geistes- und Sozialwissenschaften: Akademische Selbstverwaltung, Kollaboration und Diversität in Publikationsprozessen

27

20:02

Collaborating on dashboards for open access books usage

28

41:53

Ups and downs of open science in a pandemic

29

18:25

Qualitätssicherung im Review-Prozess zwischen Anspruch und Erfahrung: Das Projekt EQUAP2

30

18:08

Academic hiring in an Open Science environment: The University of Zurich’s project «HI-FRAME»

31

15:03

Open-Access-Konsortien als Instrument gemeinschaftlicher Open-Access-Finanzierung

32

22:23

Shaping the Swiss Open Access Monitor

Automatic playback

Speech

Text

Image

00:00

Computer animation

00:20

Computer animation

00:57

Computer animation

03:15

Computer animation

04:06

Computer animation

05:34

Computer animation

11:59

Computer animation

Transcript: German(auto-generated)

00:06

So, erstmal vielen Dank für die Einführung. Ich bin etwas größer, muss es etwas höher werden. Ich glaube, ist es so in Ordnung? Okay, prima. So, erstmal vielen Dank für die Einführung.

00:22

Und ich glaube, das war auch gar nicht die erste Folie, ob es lang war. Genau, vielen Dank für die Einführung, Frau Ohren, und auch erstmal von mir einen schönen guten Tag in die Runde. Es freut mich, dass so viele den Weg in unsere Session gefunden haben. Ja, genau, wie Frau Ortsson angekündigt hat, möchte ich heute

00:43

Ihnen die ersten Testdaten der angestrebten Erweiterung der OpenAPC-Infrastruktur vorstellen, die halt im Rahmen des OpenCost-Projekts entstehen soll. So, und damit steigen wir auch ohne große Umschweife direkt ins Thema ein.

01:02

Vielleicht vorab noch ein paar Worte zu OpenAPC für diejenigen, die es vielleicht noch nicht kennen. Die OpenAPC-Initiative sammelt und veröffentlicht Datensätze über Gebühren für Open Access-Veröffentlichungen. Tut dies unter einer offenen Datenbanklizenz.

01:20

OpenAPC wurde 2014 als Open Data-Projekt an der Universitätsbibliothek Bielefeld initiiert und ist seit Oktober 2020 verstetigt. Wir haben insgesamt drei große Datensätze, in denen wir Daten zum kostenpflichtigen Open Access publizieren, sammeln, aufbereiten und visuell darstellen.

01:48

Also zunächst haben wir unseren OpenAPC-Datensatz. Mit diesem hat das ganze Projekt begonnen und ist daher auch unser umfangreichster der drei Datensätze.

02:01

In einem nächsten Schritt sind wir dazu übergegangen, da zu Transformationsverträgen wie die zu sammeln und in einem eigenen Datensatz zu aggregieren. Der jüngste Datensatz enthält Kostendaten zu Open Access Monographien, also BPCs, und vielleicht noch mal zur Verdeuchung ein paar aktuelle Statistiken zu unserem APC-Datensatz.

02:25

Wir haben dort insgesamt Kostendaten von 381 Institutionen aggregiert. Auf Artikel-Ebene runtergebrochen haben wir also Daten zu über 167.000 Artikel mit einer Gesamtsumme von über 321 Millionen Euro.

02:45

Ziele von OpenAPC sind natürlich, Kostentransparenz und Vergleichbarkeit zwischen Institutionen zu ermöglichen. Wir haben 2014 angefangen und da wir aber auch retrospektiv noch Kostendaten erfassen,

03:01

lassen sich also auch Kostenentwicklungen über die Zeit dadurch ablesen. Und dann können diese Daten natürlich auch Grundlage für Entscheidungen im Rahmen der Open Access-Transformation sein. So, mit der OpenAPC-Initiative ist die Universitätsbibliothek Bielefeld Teil des

03:23

Projekts OpenCost. Vor Ort hat vorhin einen langen Titel gerade schon erwähnt. Den Untertitel automatisierte standardisierte Lieferungen und offene Bereitstellung von Publikationskosten und Verlagsvereinbarungen. Es handelt sich um ein DSG-gefördertes Projekt, das noch relativ

03:41

neu ist. Und neben der Universitätsbibliothek Bielefeld sind die weiteren Partnerinstitutionen noch das Deutsche Elektronen-Synchrotron in Hamburg sowie die Universitätsbibliothek Regensburg. Und im Folgenden möchte ich ein paar Punkte von dem neuen Projekt vorstellen, die dann auch Einfluss auf die Erweiterung von OpenAPC haben.

04:08

Ziel des OpenCost-Projekts ist es, eine technische Infrastruktur zu schaffen, mit der Publikationskosten über standardisierte Schnittstellen und Formate freizugängig abgerufen werden können.

04:20

Und dann natürlich auch nachgenutzt werden können, wie für Kostenauswertungen, Monitoring und so weiter. Also es geht zum einen halt um Kostentransparenz innerhalb einer Einrichtung, aber auch um Kostenvergleiche zwischen Einrichtungen. Dafür sollen dann möglichst alle Publikationskosten wissenschaftlicher Einrichtungen nachgewiesen werden.

04:43

Um das zu erreichen, beinhaltet das Projekt drei Schwerpunkte. Um Kostentransparenz zu ermöglichen, ist die erste Voraussetzung, dass die Kosten in einem maschinenlesbaren und standardisierten Format erfasst werden können. Daher wird zunächst ein Metadatenschema entwickelt, was natürlich dann ebenfalls für den Austausch und die Übertragung der Daten benötigt wird.

05:09

Also das Metadatenschema ist dann die Grundlage für das Harvesting, was in einem nächsten Schritt ausgebaut werden soll. Der dritte Schwerpunkt des Projekts ist die Erweiterung der EZB, um Informationen zu Open Access Publikationskosten.

05:25

Im Folgenden werde ich jetzt aber nochmal kurz auf die ersten beiden Bausteine eingehen, da diese dann auch für die Erweiterung der Open APC Struktur entscheidend sind. Wie gesagt, für die Transparenz und Vergleichbarkeit ist ein standardisiertes Schema unerlässlich.

05:44

Und wie Frau Barbers auch schon erwähnt hat, sollen dann neben den klassischen APCs und BPCs weitere Kostendaten erfasst werden, wie Page Charges oder Color Charges. Und diese ganzen Aspekte werden dann in einem Open-Cost-Projekt erarbeitet und zur Diskussion gestellt.

06:06

Bei der Erfassung und Transparenz gibt es, wie gesagt, bei der Erfassung von den Daten gibt es dann natürlich auch einen Anknüpfungspunkt an das DFG-Projekt. Open Access Publikationskosten, wie Frau Barbers auch schon herausgestellt hat, sodass wir uns

06:22

auch innerhalb des Open-Cost-Projekts stetig mit den Kollegen aus Jülich koordinieren. Mit dem Open-Cost-Projekt verfolgen wir aber einen etwas generischeren Ansatz. Das Metadatenschema soll unabhängig von konkreten Diensten und Anwendungen nutzbar sein.

06:41

Also wir wollen einen Datenschema dann entwickeln, das beispielsweise auch von Institutionen in England, Frankreich problemlos nachgenutzt werden könnte. Langfristig halten wir da natürlich auch unsere Dienstleistung OpenAPC im Blick. Wenn es um die Erfassung von Kosten geht, sieht es im Moment so aus, dass wir bei OpenAPC nur ein Feld im Datensatz haben für Kosten.

07:09

Unser Eurofeld, das zeige ich später nochmal, in dem werden halt die APCs erfasst. Genau, was bisher nicht dazu gehört, sind halt genau die erwähnten Zusatzkosten, um die es bei OpenCost geht.

07:27

Das wollen wir dann jetzt bei OpenAPC angehen und so erweitern, dass zukünftig auch diese Open-Cost-Daten erfasst und dargestellt werden können. Erste Testergebnisse zeige ich dann gleich zum Abschluss der Präsentation noch.

07:45

Kommen wir nochmal zum nächsten Baustein des Projekts, dem Harvesting, also dem systematischen Einsammeln von Metadaten oder in unserem Fall Kostendaten. Bisher erfolgt die Datenmeldung an OpenAPC, zum größten Teil mittels Dateien im CSV-Format per E-Mail, meistens oder teilweise auch über GitHub.

08:07

Es gibt allerdings schon einige Institutionen, die ihre APCs in ihre institutionellen Repositorien einspielen und diese Harvesten wir dann auch über eine OI-PMH-Schnittstelle.

08:23

Momentan ist es aber tatsächlich eher so, dass es noch ein wenig informell abläuft, also das Austauschschema ist zurzeit noch nicht spezifiziert und nicht einheitlich. Das ist dann auf jeden Fall ein Desiderat an das Open-Cost-Projekt, also das Aufsetzen eines Schemas fürs Harvesting.

08:48

Dabei wird auch hier auf die OI-PMH-Schnittstelle gesetzt, weil das bei jedem Repositorium möglich ist. Der Vorteil des Harvesting ist natürlich, dass die Ablieferung der Daten durch die Bereitstellung der

09:03

Daten ersetzt werden kann, was natürlich eine Erleichterung auf lange Sicht für die einzelnen Institutionen bedeutet. Und in dem Projekt selber wird es in einer ersten Testphase exemplarisch bei den Projektpartnern implementiert, um dann Daten für OpenAPC bereitzustellen.

09:32

Langfristig wollen wir natürlich auch ein bisschen dafür werben, dass natürlich weitere Institutionen ihre Daten über Repositories eingeben in unserem Open-Cost-Meter-Datenschema.

09:52

Nach diesen theoretischen Erläuterungen stelle ich Ihnen jetzt den Pilotversuch vor, von uns zusätzliche Kostenarten in OpenAPC zu aggregieren.

10:04

Für diesen Testcase haben wir dann Daten von zwei Joint-2-Einrichtungen aggregiert. Zu Joint-2 hören wir jetzt gleich im Folgenden noch etwas mehr. Und wichtig für unseren Zusammenhang ist jetzt einfach, dass viele Joint-2-Institutionen schon

10:21

seit Jahren alle Publikationskosten in ihren Repositorien erfassen, also nicht nur APCs, sondern auch Zusatzkosten. Und diese können dort direkt auch über eine OI-PMH-Schnittstelle geharristet werden. Wir haben jetzt einen Pilotversuch durchgeführt mit Daten von zwei Einrichtungen, vom DESE in Hamburg und im Forschungszentrum in Jülich.

10:46

So, wie sind wir dabei genau vorgegangen? Also, zunächst haben wir die Rohdaten geharristet und anschließend zunächst Daten herausgefiltert, die jetzt für unseren Open-APC-Zusammenhang nicht relevant sind oder nicht gesammelt werden.

11:03

Das waren Daten zu Closed-Access-Publikationen oder Nicht-Zeitschriften-Artikel. Die übrigen Daten haben wir dann nach unserem üblichen Vorgehen mit Metadaten angereichert. Und allerdings ist es so, dass wir unsere Open-APC-Harvesting-Routinen dann halt in den letzten Wochen für diesen Testcase angepasst haben,

11:24

dass halt neben den APCs zusätzliche Kostendaten mit erfasst und mit extrahiert werden. Und unser Lösungsansatz sieht jetzt erst mal so aus, dass wir unseren

11:41

Kerndatensatz, den wir bisher haben, wo die APCs erfasst werden, nicht verändern, sondern diese extrahierten Zusatzkosten in eine separate Datei packen. Und über die DOI sind diese Daten dann mit dem Kerndatensatz verknüpft.

12:01

Das sieht man hier nochmal ein bisschen. Also oben ist unser Kerndatensatz mit den APC-Kosten, der in der Spalte Euro zu finden ist und noch weitere Metadaten. Und unten sind dann sozusagen die zusätzlichen Kosten, die wir halt bisher nicht berücksichtigt haben.

12:23

Und dann zu der Analyse der Testdaten. Also der Datensatz umfasst insgesamt 1.880 Artikel, 292 von DESE und 1.588 vom Forschungszentrum Jülich. Alle publiziert bzw. bezahlt im Zeitraum von 2012 bis 2022.

12:48

Und es ist so, dass alle Artikel eine APC aufweisen. Wenn wir das jetzt mal mit den Extrakosten vergleichen, dann stellt man schon fest, dass diese nicht so häufig dann vorkommen.

13:03

Also beispielsweise bei den Color Charges haben wir ein Vorkommen von 36, sprich von 1.880 Artikeln hatten 36 zusätzlich noch Color Charges. Aber wenn man sich die Kosten dazu ansieht, also einmal die Gesamtkosten und aber auch den Milliarden dieser Color Charges, dann sieht man schon, dass die relativ hoch sind.

13:26

Also hier mit 1.800 für Color Charges und eine Gesamtsumme von über 60.000. In einem nächsten Schritt haben wir dann noch die Kosten nach Verlagen aufgespaltet.

13:45

Wir haben hier die Publisher aus den Artikeln rausgepickt, die sozusagen am häufigsten vorkommen. In der Praxis sind das glaube ich diejenigen mit mehr als 40 Einträgen gewesen. Und was wir hier eben schon sehen, ist, dass sich die Zusatzkosten relativ ungleich über die Verlage verteilen.

14:07

Also dieser hellgrüne Teil, der den größten Anteil im Balken ausmacht, das sind sozusagen die ganz klassischen APCs, die wir bisher auch immer erfasst haben.

14:21

Und alles andere sind die Zusatzkosten. Und wie gesagt, wenn man sich das anschaut, gibt es ein paar ganz interessante Einsichten, wie ich finde. Als Beispiel pick ich mal Oxford University Press heraus. Und da sehen wir ja, dass der Anteil von Zusatzkosten im Verhältnis zu den APCs schon recht hoch ist.

14:46

Also wir haben relativ viele Color Charges zum Beispiel gezahlt, was im Bereich des elektronischen Publizierens auch mal ein interessanter Aspekt ist, möchte ich mal sagen. Und zum anderen sieht man dann aber auch, dass bei den reinen OA-Publishern, wie Frontiers oder MDPI, die Zusatzkosten eher nicht erhoben werden.

15:10

Das fasst auch nochmal diesen Grafik ganz schön zusammen. Wie gesagt, die meisten Zusatzkosten treten halt beim Hybrid-OA-Publizieren auf und bei den Gold-OA-Publishern eher seltener.

15:30

So, und dann bin ich dann tatsächlich auch schon bei meiner letzten Folie. Zwei Minuten habe ich noch, das passt ja. Und die Folie fasst jetzt auch nochmal einige Erkenntnisse zusammen, die wir jetzt im Zusammenhang mit diesem Pilotversuch herausgearbeitet haben.

15:49

Also zunächst einmal ist es so, dass das Aggregieren von zusätzlichen Kostendaten OpenAPC problemlos möglich ist. Und diese Daten, die ich gerade gezeigt habe, die zeigen auch, dass

16:03

wir diese Zusatzkosten oder Daten zukünftig auch auf jeden Fall mit berücksichtigen sollten, weil sie in einigen Fällen halt auch ein vollständigeres Bild vermitteln können, als beispielsweise bei Oxford University Press. Und wie gesagt, die Daten zeigen, dass sich die Zusatzkosten halt

16:23

bei bestimmten Verlagen häufen und insbesondere beim Hybriden Open Access publizieren. Aber natürlich bei den Testdaten darf man jetzt auch nicht außer Acht lassen, dass wir einen gewissen Bias in den Daten haben. Das sind weniger als 2000 Artikel. Beide Datensätze stammen von außeruniversitären Forschungseinrichtungen, die mindellastig ausgerichtet sind.

16:48

Jedoch denke ich schon, dass der Versuch jetzt erste interessante Kenntnisse liefert, die zeigen, dass es sich auf jeden Fall lohnt, diese Zusatzkosten zukünftig mit OpenAPC aufzunehmen und darzustellen.

17:05

So und dann bedanke ich mich und freue mich auf Fragen.

Recommendations

17:09

openCost in der Praxis: Übermittlung und Auswertung von Kostendaten an OpenAPC im Rahmen des DFG-Programms Open-Access-Publikationskosten

24:31

Vom Verhandlungsergebnis zur Implementierung: Die MPDL Services gGmbH als Infrastruktur zur Umsetzung von Open Access im Rahmen der DEAL-Verträge

18:06

Publikationskostenmonitoring in Österreich: Aktivitäten im Rahmen von AT2OA2

25:35

Kartenerschließung im Rahmen der Verteilten Digitalen Landesbibliothek Niedersachsen (VDLN)

21:14

Nationale Open-Access-/Open-Science-Initiativen im Rahmen von OpenAIRE

20:31

Rechtliche Stellung von Bahndenkmälern in der Interessenabwägung (Rechtlicher Rahmen)

09:42

Transformationsindex - Ein Index zur Einordnung Institutioneller Aktivitäten im Rahmen der Openen-Accesstransformation

33:00

Aus der Peer-to-Peer-Praxis: Virtuelle Präsentationen im Rahmen datengetriebener Projektarbeit

1:22:14

Vortragsaufzeichnung vom 16.05.2018 im Rahmen der Social Entrepreneurship Reihe mit Uwe Lübbermann

05:33

Der Kupferhort von Lüstringen: Sondengänger im Auftrag der Stadtarchäologie