Diskussion: Erfahrungsaustausch Wikidata-Import
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 36 | |
Author | ||
License | CC Attribution 3.0 Unported: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/51070 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | |
Genre |
5
11
13
14
15
16
18
19
31
32
36
00:00
Interface (computing)Aktion <Informatik>Physical quantitySet (mathematics)Gebiet <Mathematik>MetadataE-textSpeciesDirection (geometry)WASPEnde <Graphentheorie>Table (information)WeightPermutationMusical ensembleRow (database)Grand Unified TheoryWikiState of matterEditorLattice (order)BALL <Programm>Dynamic random-access memoryTOUR <Programm>RobotString (computer science)TransformationMeeting/Interview
07:29
Boom (sailing)InternetMusical ensembleTwitterMischung <Mathematik>Series (mathematics)String (computer science)NormaleThumbnailLink (knot theory)Search engine (computing)Interface (computing)Software repositoryService (economics)MoistureQuery languageFiltrationScreening (medicine)RivenWeb portalEditorVapor barrierVisualization (computer graphics)YouTubeStrukturierte DatenAsynchronous Transfer ModeProfessional network serviceMeeting/Interview
14:58
Meeting/Interview
Transcript: German(auto-generated)
00:01
So, ja, das war ja sehr schön. Also ich dachte gerade, wir hatten einmal gestern schon Philipp Zumstein mit Zotkart und Jens hat so an Einstellendatensätzen gezeigt, die in Wikidata reinkommen und verknüpft werden. Dann Christian, wie das mit mehreren ist, also mal ein paar Dutzend gleich und Eva dann in Richtung Big Data gleich die Tausende.
00:26
Und natürlich je nach Menge kann man unterscheiden, welches Tool da am besten ist für ein Datenimport. Aber es gibt auch andere Kriterien, nach denen man da unterscheiden könnte. Und da wollten wir uns jetzt mal noch ein bisschen unterhalten. Wir können
00:42
auch ins Etherpad nochmal reingucken, was für Fragen waren. Ja, möchte jemand anfangen? Also ich finde es spannend, wenn wir da wirklich die Stärken und Schwächen nochmal rausarbeiten würden, weil das auch wie eine Handreichung sein kann ja für andere Menschen, die sich dafür interessieren, wie sie die Daten da reinkriegen.
01:05
Wir hatten da in diesem Fellowship eben auch, das da jetzt schon ein paar Mal vorkam, da mit ein paar Leuten auch ähnliche Probleme, die dann auch gefragt haben, ja, was nehme ich denn jetzt, Quick Statements, wieso nimmst du den Bot? Genau, also dass man das vielleicht nochmal einfach auflistet, das könnte ich mir vorstellen, dass das Menschen hilft.
01:22
Ja, Eva, du hattest ja schon Stärken und Schwächen genannt mit dem Bot. Wobei, da gibt es natürlich auch noch Unterschiede, wie der programmiert ist, also in Frameworks, in Java, in Skript, in Python und so, aber das Prozedere ist immer, man muss ein bisschen was programmieren.
01:42
Dann Christian, könntest du kurz mal zusammenfassen, mit deiner Toolchain, was da so die Stärken und Schwächen sind aus deiner Sicht? Ich meine, die Schwäche ist wahrscheinlich ganz klar, dass man sich oft erwartet, dass die Dinge gehen auf Mausklick sozusagen. Ich habe eine Schnittstelle, da nehme ich mal die Adresse, klick, klick, start und über Nacht und dann ist alles fertig.
02:06
Das geht natürlich in einer gewissen Art und Weise, aber wenn man sozusagen gute Metadaten haben möchte, dann ist irgendwie die Nachbearbeitung oft irgendwie nicht unumgängig. Würden zum Beispiel die OJS-OI-Schnittstelle strukturierte Felder für Heftnummer und Bandnummer haben, dann wäre das
02:25
noch viel einfacher, weil das ist etwas für die formalen Grundangaben, die uns die Schnittstelle nicht gescheit liefert. Das tut sich einfach nicht, keine Ahnung warum, muss man das in OJS irgendwie konfigurieren, keine Ahnung woran es wirklich liegt, aber ich habe da keinen Zeitschritt gefunden, wie das kann. Dann wäre das zum Beispiel unmöglich.
02:43
Irgendwie würde ich sagen, meine Stärke dieser Toolchain wäre, man hat mit Open Refine, aber auch mit dem Notebook vorher die Möglichkeit, man hat die Daten nochmal in der Hand. Man kann noch einmal kuratieren, man kann eben kuratieren.
03:02
Die Autorinnen zu verlinken mit Wikidata geht beispielsweise für die I.D. einfach, Org.ID, das ist ganz klar, da können wir uns quasi darauf verlassen, aber es gibt viele Autorinnen ohne Org.ID im Wikidata oder ohne Org.ID im ORI-Datensatz. Die kann ich aber dann manuell quasi verlinken noch.
03:21
Das würde irgendwie verloren gehen, wenn ich das nur dem Bot machen lasse, dann haben wir oft dann zu viele Ergebnisse und dann wird er nicht matchen, dann würde das verloren gehen. Wird wieder nur als String übertragen werden. Schöpft man nicht die Möglichkeiten aus, die Wikidata bietet. Das heißt, es bleibt irgendwie noch viel Arbeit bei meiner Toolchain, manuelle Arbeit, unstrittig.
03:44
Aber ich glaube, dass diese Metadaten, die da erzeugt werden, aber irgendwie das auch wert sind, die Arbeit reinzustecken. Was ich jetzt gemerkt habe bei den Fragen war, wie er darf man das überhaupt, diese Massen an Datensätzen reinzuschaufeln.
04:01
Ich finde das ist ja etwas ganz Spannendes, dass sozusagen diese Wikidata ist irgendwie, dieser Brauch quasi übernommen worden. Der Bot muss beantragt werden, muss diskutiert werden und wenn der Bot aber dann nur, ich sage jetzt nur, wie viele, was waren das bei euch? 12.000 oder 20.000 Org.IDs, die angereichert werden, ich sage jetzt nur, dann muss das diesen ganzen Prozess durchlaufen, der gut ist.
04:27
Aber mit den Tools wie QuickStatements, die sich quasi jeder zweite Wikidata-Editor eigentlich bedient, ist das völlig rundherum ausgehebelt worden mittlerweile. Ich kann mit QuickStatements 100.000 Edits durchführen in rascher Zeit und muss niemanden um Einwilligung bitten oder von meinem Projekt erzählen.
04:49
Eigentlich ist das schlecht, aber so hat sich das in Wikidata irgendwie der Brauch entwickelt. Das ist ja quasi ein Ungleichgewicht, das da entstanden ist, das man wo möglicherweise ändern kann.
05:02
Ich glaube die Wikidata-Minskommunei in der gewissen Art und Weise nimmt man mehr nach, zu schauen, was hier alles reingeschaufelt wird und ist das alles gescheit oder nicht, auch wenn sie es probieren mit den zur Verfügung stehenden Wik und seitlich und sonstigen Ressourcen, die das bedienen. Ja, wenn ich da gleich was zu sagen kann, es geht auch ein bisschen um Transparenz mit dem Bot-Flag, dass man auch sagen kann,
05:35
ok, Bots möchte ich ausblenden oder dem Bot vertraue ich, dann muss ich die Bearbeitung gar nicht mehr angucken.
05:40
Das geht natürlich auch mit normalen Accounts, aber es hat halt ein bisschen mehr Struktur. Ansonsten empfehle ich immer, wenn eine größere Menge von Daten abgeglichen werden soll, auch in Wikidata eine Seite dazu zu machen. Jetzt kurz mal für Menschen beschreiben hier, wir wollen mit dem Account, die und die Daten, das und das passiert da, dass andere das besser nachvollziehen können.
06:04
Genau, oder der Project-Chat ist auch irgendwie eine ganz gute Anlaufstelle, wo man so Sachen machen kann. Also das passt da auch ganz gut, wo so kleine, was ich sage jetzt, kleinere Projekte, wenn es um 20.000, 30.000 Datensätze geht, das sage ich, ich spreche jetzt irgendwie von kleineren Projekten, dann passt das da auch ganz gut rein.
06:21
Man findet nämlich letzten Endes auch irgendwie Mitstreiterinnen eventuell, die irgendwie nur Wissen oder Ressourcen einbringen können. Das hat ganz gut geklappt. Ein Beispiel war jetzt dafür das biografische Lexikon des Kaisertums Österreichs, das seit vielen Jahren in der deutschsprachigen Wikisource im Volltext erschlossen worden ist. Und das wurde in so einer Aktion eigentlich gemeinsam jetzt noch Wikidata transformiert.
06:45
Das sind 30.000 biografische Lemmata, die hier wirklich sehr schön strukturiert modelliert wurden. Und das ist noch so eine Project-Chat-Geschichte irgendwie gestartet, dass da jemand das aufgeworfen hat. Hier wäre es. Und hier haben wir ein paar aus unserer Datenlaube ein Skript,
07:04
die hier Wikisource nach Wikidata verlinken, in Stellung gebracht und dann markiert. Und da wurde sehr viel gearbeitet. Aber auch das braucht viel Zeit, ganz klar, um diese Dinge irgendwie zu screenen oder zu schauen, was tut sie im Project-Chat oder was tut sie in diesen ganzen Kommunikationskanälen,
07:23
wo solche Dinge irgendwie angesprochen werden. Da verpasst man auch viel. Aber man macht ja auch andere Dinge gern. Jens, wie hattet ihr eigentlich mit der Datenlaube angefangen? War das erst einmal nur per Hand über die normale Oberfläche Daten eintragen und dann irgendwann, oh, das skaliert nicht, wir brauchen da ein Bot-Tool, irgendwas?
07:45
Ja und nein. Also das ging genau so los mit dem Industriealbum, dem Album der Sächsischen Industrie. Da hat, wenn ich mich richtig erinnere, Christian, glaube ich, auf Twitter gesehen, dass ich da irgendwie einen Artikel, Metadatum nach dem anderen raushaue.
08:02
Und die Bilder sind ja schöne Vorschaubilder. Und als ich mit dem ersten Band durch war, hat Christian sich irgendwie gemeldet und hat gesagt, das geht schneller. Und den ersten Band habe ich irgendwie noch eine Woche gebraucht per Hand. Und der zweite Band war dann am nächsten Tag fertig. Und ich musste nur noch die Bilder ergänzen.
08:21
Und dann kam irgendwann die Reihe der merkwürdigen Bäume in der Datenlaube, wo er mir geholfen hat. Und dann wubsen sich so diese zwei Projektchen, Ansätze. Irgendwann hat Christian dann gesagt, wir haben ja so einen Honigpot gefunden. Und dann haben wir quasi das große Rad gedreht.
08:41
Und letztlich, muss man auch sagen, behaupten wir immer, dass die Datenlaube letztlich auch nur ein Prototyp ist. Weil sinnvoll wäre es natürlich, wenn die komplette Wikisource, also alles, alles, alles mit Wikidata erschlossen wäre eines Tages. Das ist jetzt nicht unser Hobby, aber das ist natürlich sinnvollerweise der Horizont,
09:05
der irgendwann auch mal wichtig wäre. Aber wir machen es jetzt erst mal mit der Datenlaube vor. Ja, das bestätige ich für meine Wikipedia, Wikimedia-Erfahrung. Es lohnt sich einfach mal anzufangen. Und dann über kurz oder lang gibt es Mitstreiter.
09:20
Oder da tun sich weitere Möglichkeiten auf. Weil die Alternative wäre zu sagen, wo das ideale Werkzeug zum Datenimport, wie muss es aussehen. Jetzt warten wir mal, bis das entwickelt ist. Und dann können wir anfangen. So läuft es halt in der Community hier nicht. Und ja, es macht mehr Sinn, erst mal zu schauen. Und dann da, wo der Schuh drückt, da dann anzusetzen.
09:42
Trotzdem, die Alternative jetzt, wenn wir die Tools durchgehen, ist halt, die einfachste Form ist so, das normale Editor-Interface von Wikidata und das per Hand dort einzutragen. Wenn wir das mit unserer Liste aufnehmen. Und die Stärke ist halt super flexibel, das Einfachste. Die Schwäche ist, es dauert. Ja, man braucht ein bisschen länger als Christian.
10:05
Wollen wir noch mal zu den Fragen gehen, was im ESA-Chat gesammelt ist? Ach ja, ein Christian. Deine ganzen Tools, wo findet man die denn?
10:21
Genau. Es gibt ein GitLab-Repository, wo das Python-Script drinnen liegt in der aktuellsten Variante. Und Open Refine, ja, ist Open Refine. Da wäre es vielleicht ganz nett, wenn ich mal die Motivation dazu finde, diese Schritte, die hier quasi standardisiert passieren,
10:43
mit diesen Dingen auch zu dokumentieren und das irgendwie leichter nachstellbar zu machen. Aber an und für sich ist das ja eine freie Bearbeitung in Open Refine. Genau. Ihr habt den Link schon in Isabett gepostet zu den GitLab.
11:04
Ja, dann eine Frage. Wie lässt sich das Themennetzwerk der Datenlaube übersichtlich durchbrausen? Also, Jens, was du gezeigt hast, mit dem Sparkle Endpunkt, da ist ja schöne Visualisierung, aber am Ende ist es oft ein bisschen kuddelmuddel.
11:21
Also ich denke, ideal wäre so ein Portal, was man in der Bibliothek ein Portal nennt, das Datenlaube-Portal, und dort mit Volltextsuche und Filtering und so was. Brauchen wir sowas, oder sagen wir, eWiki-Data bietet das einen generischen Weg für alle möglichen Daten, das reicht erst mal? Ich möchte das gern beantworten.
11:43
Nee, ich habe, als ich im Baltikum rumgelaufen bin im Januar, habe ich mir von Christian so eine Datenlaube-Suchmaschine gewünscht, also quasi eine Maschine, die aufsetzt auf den Daten, die da sind, aber irgendeine Mischung, also ich bin ja immer nur Leier, ich wünsche mir dann was und eine Mischung aus
12:01
strukturierte Datenabfrage mit Kombinationen, Volltextsuche. Also ich glaube, wenn da jemand mal Lust und Zeit hätte in dem nächsten, wie auch immer genannt, Lockdown, so eine Datenlaube-Suchmaschine, auch gern hübsch gestaltet am Ende des Tages, wünsche ich mir von Christian schon lange,
12:23
aber ich kann natürlich niemanden zwingen, aber bestimmt kommt irgendwann mal jemand und macht das. Christian hat noch viele andere Aufgaben. Ja, also die Daten stehen frei, ist alles dokumentiert, Schnittstellen, das ist das Schöne, da kann gerne sich jemand versuchen, das noch aufzübschen.
12:40
So, was haben wir noch? Die Frage mit der Disambiguierung, ich glaube, ob die Themen, ob man das auch mit in Open Refined Disambiguationen kann,
13:01
aber das hast du genannt. Ich denke nur, dass es wahrscheinlich nicht ganz so einfach, weil da gibt es ja keine ID für Themen, wenn da nicht gerade mit GND erschlossen ist. Genau, das ist quasi viel Arbeit oder unter Umständen auch nicht so super in dem Ergebnis, das rauskommt, ganz klar, wie das also ist
13:22
mit so freien Schlagwärtern. Aber die Sprache ist kein Problem, weil ja das Open Refined Vigidator Reconciliation Service lässt sich auf eine der allen hinterlegten Sprachen in Vigidator gezielt richten und dadurch ist das kein Problem. Also jetzt meine Strings sind alle in Deutsch,
13:43
dann schaue ich nur auf Deutsch nach in Vigidator. Gut, also von der geplanten Stunde sind wir jetzt durch. Ich sehe jetzt auch von den Fragen da, die aufgekommen sind, jetzt keine wesentliche, die wir vergessen haben. Wir können das natürlich noch sehr vertiefen,
14:02
aber diese Session sollte erst mal so als Einblick dienen, was alles schon gemacht wird und hoffentlich das Interesse wecken, selber mal auszuprobieren. Ansonsten, ich denke ich spreche für alle, wir sind gerne für Fragen offen, wenn jemand sich mit uns Verbindungen setzt, das mal zu zeigen oder eine Einschätzung zu geben,
14:21
Projektideen und so weiter. Man kann uns googeln, man findet uns im Internet. Gut, dann würde ich nämlich jetzt pünktlich Schluss machen, weil die nächste Session, die ist zwar auf Englisch, aber ist auch im Bereich der Bibliotheken und Vigidator-Zusammenarbeit. Dazu lade ich herzlich ein.
14:41
Ansonsten ist ja auch alles aufgezeichnet, wird hinterher auch bei Comments hochgeladen oder bei YouTube. Also, vielen Dank. Danke, bis bald. Bis bald, wir sehen uns auf jeden Fall und sein wir dann. Tschüss.