Diskussion: Erfahrungsaustausch Wikidata-Import - TIB AV-Portal

Diskussion: Erfahrungsaustausch Wikidata-Import

00:00

11

Wikimedia Foundation (WMF)

Voß, Jakob Seidlmayer, Eva Erlinger, Christian Bemme, Jens

Formal Metadata

Title

Diskussion: Erfahrungsaustausch Wikidata-Import

Title of Series

WikiCite 2020 - Open citations & linked bibliographic data

Number of Parts

36

Author

Seidlmayer, Eva

Erlinger, Christian

License

CC Attribution 3.0 Unported:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.

Identifiers

10.5446/51070 (DOI)

Publisher

Wikimedia Foundation (WMF)

Release Date

Language

Content Metadata

Subject Area	Computer Science
Genre	Conference/Talk

WikiCite 2020 - Open citations & linked bibliographic data24 / 36

1

2:48:32

Hands-on: Wikidata-Einführung (Library Carpentry style)

2

1:04:17

Workshop: Politicians and Politics in Scholia

3

36:08

Introduction to the Swedish Project

4

1:09:07

Importing 200,000 Parliamentary documents

5

32:21

The frontend of Wikicite

6

22:52

Awareness and trust experiments

7

15:51

Source link templates in ruwiki

8

21:29

Wikimedia and Libraries User Group

9

31:34

Project VandyCite: Using Wikidata to support research information management

10

32:02

Good citizenship and bad metadata: Wikidata at the National Library of Israel

11

30:03

Wikipedia in African Libraries

12

35:05

Turning Scholia into a platform for living scientometric studies

13

30:11

WikiCite 2020 - Panel discussion

14

13:43

WikiCite 2020 - Welcome

15

27:47

Author items in Wikidata

16

29:18

Author disambiguation

17

15:16

Standardised Data on Initiatives (STARDIT)

18

39:02

Scholia profiles

19

39:13

20

1:49:57

Introduction to Gene Wiki: Using wikidata items on citations to capture evidence and provenance.

21

10:27

"Die Datenlaube" – Vorstellung des Projekts mit Fokus auf bibliografische Daten und Wikicite

22

21:15

Import und Anreicherung bibliographischer Daten via OAI-PMH mittels Jupyter Notebook und OpenRefine

23

14:14

ORCID für Wikidata: Bot-Ansatz für Datenanreicherung

24

14:59

Diskussion: Erfahrungsaustausch Wikidata-Import

25

1:35:42

WikiFactMine and ScienceSource: Our History with Wikimedia

26

32:01

Collaborative curation via Wikidata: the case of citations and source metadata

27

28:46

Populating Wikidata with articles and authors: a how-to

28

29:28

The challenge of organisation - based publishing (grey literature) for Wikidata

29

24:39

What other metadata could be made open about a research publication?

30

10:39

Entity explosion...connecting the dots

31

09:41

WikiCite 2020 - Discussion

32

1:00:09

State of WikiCite in 2020 (Version3)

33

58:01

Floating classifications - Knowledge Organization Systems in past, present and future

34

21:12

Wikidata-Normdatenverknüpfung mit Cocoda

35

27:28

Katalogisierung mit Zotero in Wikidata (Zotkat)

36

18:57

Automatic playback

Speech

Text

Image

00:00

Interface (computing)Aktion <Informatik>Physical quantitySet (mathematics)Gebiet <Mathematik>MetadataE-textSpeciesDirection (geometry)WASPEnde <Graphentheorie>Table (information)WeightPermutationMusical ensembleRow (database)Grand Unified TheoryWikiState of matterEditorLattice (order)BALL <Programm>Dynamic random-access memoryTOUR <Programm>RobotString (computer science)TransformationMeeting/Interview

07:29

Boom (sailing)InternetMusical ensembleTwitterMischung <Mathematik>Series (mathematics)String (computer science)NormaleThumbnailLink (knot theory)Search engine (computing)Interface (computing)Software repositoryService (economics)MoistureQuery languageFiltrationScreening (medicine)RivenWeb portalEditorVapor barrierVisualization (computer graphics)YouTubeStrukturierte DatenAsynchronous Transfer ModeProfessional network serviceMeeting/Interview

14:58

Meeting/Interview

Transcript: German(auto-generated)

00:01

So, ja, das war ja sehr schön. Also ich dachte gerade, wir hatten einmal gestern schon Philipp Zumstein mit Zotkart und Jens hat so an Einstellendatensätzen gezeigt, die in Wikidata reinkommen und verknüpft werden. Dann Christian, wie das mit mehreren ist, also mal ein paar Dutzend gleich und Eva dann in Richtung Big Data gleich die Tausende.

00:26

Und natürlich je nach Menge kann man unterscheiden, welches Tool da am besten ist für ein Datenimport. Aber es gibt auch andere Kriterien, nach denen man da unterscheiden könnte. Und da wollten wir uns jetzt mal noch ein bisschen unterhalten. Wir können

00:42

auch ins Etherpad nochmal reingucken, was für Fragen waren. Ja, möchte jemand anfangen? Also ich finde es spannend, wenn wir da wirklich die Stärken und Schwächen nochmal rausarbeiten würden, weil das auch wie eine Handreichung sein kann ja für andere Menschen, die sich dafür interessieren, wie sie die Daten da reinkriegen.

01:05

Wir hatten da in diesem Fellowship eben auch, das da jetzt schon ein paar Mal vorkam, da mit ein paar Leuten auch ähnliche Probleme, die dann auch gefragt haben, ja, was nehme ich denn jetzt, Quick Statements, wieso nimmst du den Bot? Genau, also dass man das vielleicht nochmal einfach auflistet, das könnte ich mir vorstellen, dass das Menschen hilft.

01:22

Ja, Eva, du hattest ja schon Stärken und Schwächen genannt mit dem Bot. Wobei, da gibt es natürlich auch noch Unterschiede, wie der programmiert ist, also in Frameworks, in Java, in Skript, in Python und so, aber das Prozedere ist immer, man muss ein bisschen was programmieren.

01:42

Dann Christian, könntest du kurz mal zusammenfassen, mit deiner Toolchain, was da so die Stärken und Schwächen sind aus deiner Sicht? Ich meine, die Schwäche ist wahrscheinlich ganz klar, dass man sich oft erwartet, dass die Dinge gehen auf Mausklick sozusagen. Ich habe eine Schnittstelle, da nehme ich mal die Adresse, klick, klick, start und über Nacht und dann ist alles fertig.

02:06

Das geht natürlich in einer gewissen Art und Weise, aber wenn man sozusagen gute Metadaten haben möchte, dann ist irgendwie die Nachbearbeitung oft irgendwie nicht unumgängig. Würden zum Beispiel die OJS-OI-Schnittstelle strukturierte Felder für Heftnummer und Bandnummer haben, dann wäre das

02:25

noch viel einfacher, weil das ist etwas für die formalen Grundangaben, die uns die Schnittstelle nicht gescheit liefert. Das tut sich einfach nicht, keine Ahnung warum, muss man das in OJS irgendwie konfigurieren, keine Ahnung woran es wirklich liegt, aber ich habe da keinen Zeitschritt gefunden, wie das kann. Dann wäre das zum Beispiel unmöglich.

02:43

Irgendwie würde ich sagen, meine Stärke dieser Toolchain wäre, man hat mit Open Refine, aber auch mit dem Notebook vorher die Möglichkeit, man hat die Daten nochmal in der Hand. Man kann noch einmal kuratieren, man kann eben kuratieren.

03:02

Die Autorinnen zu verlinken mit Wikidata geht beispielsweise für die I.D. einfach, Org.ID, das ist ganz klar, da können wir uns quasi darauf verlassen, aber es gibt viele Autorinnen ohne Org.ID im Wikidata oder ohne Org.ID im ORI-Datensatz. Die kann ich aber dann manuell quasi verlinken noch.

03:21

Das würde irgendwie verloren gehen, wenn ich das nur dem Bot machen lasse, dann haben wir oft dann zu viele Ergebnisse und dann wird er nicht matchen, dann würde das verloren gehen. Wird wieder nur als String übertragen werden. Schöpft man nicht die Möglichkeiten aus, die Wikidata bietet. Das heißt, es bleibt irgendwie noch viel Arbeit bei meiner Toolchain, manuelle Arbeit, unstrittig.

03:44

Aber ich glaube, dass diese Metadaten, die da erzeugt werden, aber irgendwie das auch wert sind, die Arbeit reinzustecken. Was ich jetzt gemerkt habe bei den Fragen war, wie er darf man das überhaupt, diese Massen an Datensätzen reinzuschaufeln.

04:01

Ich finde das ist ja etwas ganz Spannendes, dass sozusagen diese Wikidata ist irgendwie, dieser Brauch quasi übernommen worden. Der Bot muss beantragt werden, muss diskutiert werden und wenn der Bot aber dann nur, ich sage jetzt nur, wie viele, was waren das bei euch? 12.000 oder 20.000 Org.IDs, die angereichert werden, ich sage jetzt nur, dann muss das diesen ganzen Prozess durchlaufen, der gut ist.

04:27

Aber mit den Tools wie QuickStatements, die sich quasi jeder zweite Wikidata-Editor eigentlich bedient, ist das völlig rundherum ausgehebelt worden mittlerweile. Ich kann mit QuickStatements 100.000 Edits durchführen in rascher Zeit und muss niemanden um Einwilligung bitten oder von meinem Projekt erzählen.

04:49

Eigentlich ist das schlecht, aber so hat sich das in Wikidata irgendwie der Brauch entwickelt. Das ist ja quasi ein Ungleichgewicht, das da entstanden ist, das man wo möglicherweise ändern kann.

05:02

Ich glaube die Wikidata-Minskommunei in der gewissen Art und Weise nimmt man mehr nach, zu schauen, was hier alles reingeschaufelt wird und ist das alles gescheit oder nicht, auch wenn sie es probieren mit den zur Verfügung stehenden Wik und seitlich und sonstigen Ressourcen, die das bedienen. Ja, wenn ich da gleich was zu sagen kann, es geht auch ein bisschen um Transparenz mit dem Bot-Flag, dass man auch sagen kann,

05:35

ok, Bots möchte ich ausblenden oder dem Bot vertraue ich, dann muss ich die Bearbeitung gar nicht mehr angucken.

05:40

Das geht natürlich auch mit normalen Accounts, aber es hat halt ein bisschen mehr Struktur. Ansonsten empfehle ich immer, wenn eine größere Menge von Daten abgeglichen werden soll, auch in Wikidata eine Seite dazu zu machen. Jetzt kurz mal für Menschen beschreiben hier, wir wollen mit dem Account, die und die Daten, das und das passiert da, dass andere das besser nachvollziehen können.

06:04

Genau, oder der Project-Chat ist auch irgendwie eine ganz gute Anlaufstelle, wo man so Sachen machen kann. Also das passt da auch ganz gut, wo so kleine, was ich sage jetzt, kleinere Projekte, wenn es um 20.000, 30.000 Datensätze geht, das sage ich, ich spreche jetzt irgendwie von kleineren Projekten, dann passt das da auch ganz gut rein.

06:21

Man findet nämlich letzten Endes auch irgendwie Mitstreiterinnen eventuell, die irgendwie nur Wissen oder Ressourcen einbringen können. Das hat ganz gut geklappt. Ein Beispiel war jetzt dafür das biografische Lexikon des Kaisertums Österreichs, das seit vielen Jahren in der deutschsprachigen Wikisource im Volltext erschlossen worden ist. Und das wurde in so einer Aktion eigentlich gemeinsam jetzt noch Wikidata transformiert.

06:45

Das sind 30.000 biografische Lemmata, die hier wirklich sehr schön strukturiert modelliert wurden. Und das ist noch so eine Project-Chat-Geschichte irgendwie gestartet, dass da jemand das aufgeworfen hat. Hier wäre es. Und hier haben wir ein paar aus unserer Datenlaube ein Skript,

07:04

die hier Wikisource nach Wikidata verlinken, in Stellung gebracht und dann markiert. Und da wurde sehr viel gearbeitet. Aber auch das braucht viel Zeit, ganz klar, um diese Dinge irgendwie zu screenen oder zu schauen, was tut sie im Project-Chat oder was tut sie in diesen ganzen Kommunikationskanälen,

07:23

wo solche Dinge irgendwie angesprochen werden. Da verpasst man auch viel. Aber man macht ja auch andere Dinge gern. Jens, wie hattet ihr eigentlich mit der Datenlaube angefangen? War das erst einmal nur per Hand über die normale Oberfläche Daten eintragen und dann irgendwann, oh, das skaliert nicht, wir brauchen da ein Bot-Tool, irgendwas?

07:45

Ja und nein. Also das ging genau so los mit dem Industriealbum, dem Album der Sächsischen Industrie. Da hat, wenn ich mich richtig erinnere, Christian, glaube ich, auf Twitter gesehen, dass ich da irgendwie einen Artikel, Metadatum nach dem anderen raushaue.

08:02

Und die Bilder sind ja schöne Vorschaubilder. Und als ich mit dem ersten Band durch war, hat Christian sich irgendwie gemeldet und hat gesagt, das geht schneller. Und den ersten Band habe ich irgendwie noch eine Woche gebraucht per Hand. Und der zweite Band war dann am nächsten Tag fertig. Und ich musste nur noch die Bilder ergänzen.

08:21

Und dann kam irgendwann die Reihe der merkwürdigen Bäume in der Datenlaube, wo er mir geholfen hat. Und dann wubsen sich so diese zwei Projektchen, Ansätze. Irgendwann hat Christian dann gesagt, wir haben ja so einen Honigpot gefunden. Und dann haben wir quasi das große Rad gedreht.

08:41

Und letztlich, muss man auch sagen, behaupten wir immer, dass die Datenlaube letztlich auch nur ein Prototyp ist. Weil sinnvoll wäre es natürlich, wenn die komplette Wikisource, also alles, alles, alles mit Wikidata erschlossen wäre eines Tages. Das ist jetzt nicht unser Hobby, aber das ist natürlich sinnvollerweise der Horizont,

09:05

der irgendwann auch mal wichtig wäre. Aber wir machen es jetzt erst mal mit der Datenlaube vor. Ja, das bestätige ich für meine Wikipedia, Wikimedia-Erfahrung. Es lohnt sich einfach mal anzufangen. Und dann über kurz oder lang gibt es Mitstreiter.

09:20

Oder da tun sich weitere Möglichkeiten auf. Weil die Alternative wäre zu sagen, wo das ideale Werkzeug zum Datenimport, wie muss es aussehen. Jetzt warten wir mal, bis das entwickelt ist. Und dann können wir anfangen. So läuft es halt in der Community hier nicht. Und ja, es macht mehr Sinn, erst mal zu schauen. Und dann da, wo der Schuh drückt, da dann anzusetzen.

09:42

Trotzdem, die Alternative jetzt, wenn wir die Tools durchgehen, ist halt, die einfachste Form ist so, das normale Editor-Interface von Wikidata und das per Hand dort einzutragen. Wenn wir das mit unserer Liste aufnehmen. Und die Stärke ist halt super flexibel, das Einfachste. Die Schwäche ist, es dauert. Ja, man braucht ein bisschen länger als Christian.

10:05

Wollen wir noch mal zu den Fragen gehen, was im ESA-Chat gesammelt ist? Ach ja, ein Christian. Deine ganzen Tools, wo findet man die denn?

10:21

Genau. Es gibt ein GitLab-Repository, wo das Python-Script drinnen liegt in der aktuellsten Variante. Und Open Refine, ja, ist Open Refine. Da wäre es vielleicht ganz nett, wenn ich mal die Motivation dazu finde, diese Schritte, die hier quasi standardisiert passieren,

10:43

mit diesen Dingen auch zu dokumentieren und das irgendwie leichter nachstellbar zu machen. Aber an und für sich ist das ja eine freie Bearbeitung in Open Refine. Genau. Ihr habt den Link schon in Isabett gepostet zu den GitLab.

11:04

Ja, dann eine Frage. Wie lässt sich das Themennetzwerk der Datenlaube übersichtlich durchbrausen? Also, Jens, was du gezeigt hast, mit dem Sparkle Endpunkt, da ist ja schöne Visualisierung, aber am Ende ist es oft ein bisschen kuddelmuddel.

11:21

Also ich denke, ideal wäre so ein Portal, was man in der Bibliothek ein Portal nennt, das Datenlaube-Portal, und dort mit Volltextsuche und Filtering und so was. Brauchen wir sowas, oder sagen wir, eWiki-Data bietet das einen generischen Weg für alle möglichen Daten, das reicht erst mal? Ich möchte das gern beantworten.

11:43

Nee, ich habe, als ich im Baltikum rumgelaufen bin im Januar, habe ich mir von Christian so eine Datenlaube-Suchmaschine gewünscht, also quasi eine Maschine, die aufsetzt auf den Daten, die da sind, aber irgendeine Mischung, also ich bin ja immer nur Leier, ich wünsche mir dann was und eine Mischung aus

12:01

strukturierte Datenabfrage mit Kombinationen, Volltextsuche. Also ich glaube, wenn da jemand mal Lust und Zeit hätte in dem nächsten, wie auch immer genannt, Lockdown, so eine Datenlaube-Suchmaschine, auch gern hübsch gestaltet am Ende des Tages, wünsche ich mir von Christian schon lange,

12:23

aber ich kann natürlich niemanden zwingen, aber bestimmt kommt irgendwann mal jemand und macht das. Christian hat noch viele andere Aufgaben. Ja, also die Daten stehen frei, ist alles dokumentiert, Schnittstellen, das ist das Schöne, da kann gerne sich jemand versuchen, das noch aufzübschen.

12:40

So, was haben wir noch? Die Frage mit der Disambiguierung, ich glaube, ob die Themen, ob man das auch mit in Open Refined Disambiguationen kann,

13:01

aber das hast du genannt. Ich denke nur, dass es wahrscheinlich nicht ganz so einfach, weil da gibt es ja keine ID für Themen, wenn da nicht gerade mit GND erschlossen ist. Genau, das ist quasi viel Arbeit oder unter Umständen auch nicht so super in dem Ergebnis, das rauskommt, ganz klar, wie das also ist

13:22

mit so freien Schlagwärtern. Aber die Sprache ist kein Problem, weil ja das Open Refined Vigidator Reconciliation Service lässt sich auf eine der allen hinterlegten Sprachen in Vigidator gezielt richten und dadurch ist das kein Problem. Also jetzt meine Strings sind alle in Deutsch,

13:43

dann schaue ich nur auf Deutsch nach in Vigidator. Gut, also von der geplanten Stunde sind wir jetzt durch. Ich sehe jetzt auch von den Fragen da, die aufgekommen sind, jetzt keine wesentliche, die wir vergessen haben. Wir können das natürlich noch sehr vertiefen,

14:02

aber diese Session sollte erst mal so als Einblick dienen, was alles schon gemacht wird und hoffentlich das Interesse wecken, selber mal auszuprobieren. Ansonsten, ich denke ich spreche für alle, wir sind gerne für Fragen offen, wenn jemand sich mit uns Verbindungen setzt, das mal zu zeigen oder eine Einschätzung zu geben,

14:21

Projektideen und so weiter. Man kann uns googeln, man findet uns im Internet. Gut, dann würde ich nämlich jetzt pünktlich Schluss machen, weil die nächste Session, die ist zwar auf Englisch, aber ist auch im Bereich der Bibliotheken und Vigidator-Zusammenarbeit. Dazu lade ich herzlich ein.

14:41

Ansonsten ist ja auch alles aufgezeichnet, wird hinterher auch bei Comments hochgeladen oder bei YouTube. Also, vielen Dank. Danke, bis bald. Bis bald, wir sehen uns auf jeden Fall und sein wir dann. Tschüss.

Recommendations

18:57

27:40

Import community

28:10

27:43

Import Deep Dive

26:20

OpenStreetMap und Wikidata

11:19

OpenStreetMap und Wikidata

24:21

Introduction to Wikidata

23:49

OSM + Wikidata + Metadata +...

1:20:38

ETH 2013 - Diskussion

21:23

Denver Metro Buildings Import