Anreicherung von Musiktonträgerkatalogisaten durch nutzergenerierte Inhalte
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 13 | |
Author | ||
Contributors | ||
License | CC Attribution - NonCommercial - NoDerivatives 3.0 Germany: You are free to use, copy, distribute and transmit the work or content in unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/69611 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
BiblioCon244 / 13
12
00:00
Computer animationLecture/Conference
00:23
Computer animation
08:13
Computer animation
16:03
Computer animation
23:53
Lecture/ConferenceComputer animation
Transcript: German(auto-generated)
00:05
Schönen guten Tag und ich freue mich heute zu Ihnen sprechen zu können, zu diesem vielleicht etwas Titel, der etwas sperrig ist. Bei uns ist es einfach bekannt als Projekt Miami, von daher habe ich hier vielleicht ein paar
00:23
Bilder zur Einstimmung gewählt, die Sie vielleicht etwas fortführen können, bevor wir gleich wieder zur Bibliothek, zum Bibliothekarischen kommen, stehen ja auch im Prinzip bei dem einen oder anderen sicherlich auch Sommerurlaube bevor und genau, von daher einfach mal so ein bisschen zur
00:43
Einstimmung, zur Entspannung, bevor wir dann eben wieder zu diesem etwas sperrigen Titel zurückkommen, Anreicherung von Musikton-Träger, Katalogisaten durch Nutzer generierte Inhalte oder kurz Projekt Miami, das steht für Metadaten, Integration, Musik und da hat sich einfach jemand
01:03
gedacht, wie verkürzen wir das einfach und suggerieren das mit etwas Positiven und da kam eben wie so häufig so etwas heraus. Der Vortrag ist sowohl von mir als auch von meiner Kollegin Dr. Angela Vorn dran, die hatte den Vortrag eingereicht, sie kann heute leider nicht und von daher
01:21
halte ich das, aber ich denke mal ich kann Ihnen da auch das Thema hoffentlich zur Genüge und ausreichend präsentieren. Ja, was ist das Projekt Ziel oder was verbirgt sich hinter diesem Titel? Wir wollen im Prinzip regelmäßig Anreicherung von Musikmetadaten und zwar
01:43
insbesondere Trackdaten in unsere Datensätze überführen. Das Projekt besteht schon eine ganze Weile, kam der Projektantrag, der erste wurde 2015 gestellt durch einige personelle Umänderungen, lag das Projekt dann etwas und wurde 2018 dann noch einmal aktualisiert.
02:05
Wir wollen hier im ersten Anlauf mit der Musikdatenbank Musicbrain zusammenarbeiten, also im Prinzip deren Metadaten übernehmen. Jeder Track und das ist neu, soll hier einen eigenen Datensatz bekommen und
02:26
das Ziel ist nachher vor allem natürlich eine verbesserte Recherche, dass wir es mit unserem Audioplayer vernetzen können, dass wir nachher, da komme ich dann später noch mal dazu, auch die Daten innerhalb der, also unterhalb von
02:43
Datensätzen noch austauschen können. Und genau zum ersten Mal zum GMA, also das Deutsche Musikarchiv, wo ich ja lange Zeit auch mitgearbeitet habe, beherbergt in etwa 1,38 Millionen Musiktonträger und in vielen wurde
03:03
auch intellektuell Tracks erfasst und die waren an verschiedenen Stellen zu finden. Also einmal gab es bereits einige Trackdatensätze, die mit Tonträgern verknüpft wurden, das war allerdings, liegt das schon eine ganze Weile zurück, beziehungsweise wird wenn auch nur für ganz bestimmte
03:22
Tonträger gemacht. Zum anderen gibt es halt in den Katalogisaten, insbesondere im CBS, wenn es intellektuell erfasst wird, ein Feld, wo lange Zeit Tracks reingeschrieben wurden, das zumindest bis 2016 mit der Einführung von RDA
03:44
hat sich da halt einiges geändert. Ja, die Musikdatenbank MusicBrainz ist halt ein offenes nutzergeneriertes Webangebot, das Metadaten von Tonträgern sammelt und zur Verfügung stellt.
04:02
Es steht unter einer CC0-Lizenz, das heißt die Daten sind frei verfügbar und wir können damit auch arbeiten. Sie verfügt nicht nur über Tonträger, sondern natürlich auch über Informationen zu Künstlerinnen, zu diversen Musikgruppen, etwa zwei Millionen. Es befinden sich dort 27
04:22
Millionen Tonträger, also Recordings, Tonträger, denen 37 Millionen Tracks zugeordnet sind. Zu finden sind etwa 1,2 Millionen Barcodes, also sprich die JITEN bzw. die EAN oder der UPC. Und was eben auch
04:45
ganz gut ist, und da haben wir ja schon ein bisschen was gehört, ist eben auch, dass Künstler eben auch einen eigenen Identifier erhalten, die sogenannte MBIT bzw. nicht nur Künstler, sondern auch Aufnahmen und Tracks, die wir
05:00
auch in die Datensätze spielen können und daher dann auch immer wieder ein Anker haben, wenn wir vielleicht für weitere Fremddaten- etwas nutzen wollen und aus anderen Angeboten, wo eben dieser Identifier auch verzeichnet ist, dass wir dort Daten nachnutzen können. Wie gehen wir also vor? Wie ich ja schon gesagt habe, die Track-Titel
05:23
aus Musicbrains sollen für die DNB-Titel übernommen werden. Dabei werden erstmal die Identifier abgeglichen. Wir haben ja im deutschen Musikarchiv werden ja Tonträger erfasst, nach dem Pflichtablieferungsgesetz und dort gibt es halt bestimmte Identifier.
05:49
Der gebräuchlichste ist da sicherlich die JITEN, die EAN oder die UPC. Die muss natürlich auch erfasst sein, um hier auch die Daten benutzen zu können, weil das ist im Prinzip der erste Anker, nachdem wir vorgehen.
06:03
Es wird sowohl bei Musicbrains als auch in den Daten des deutschen Musikarchivs halt geguckt und wenn es einen Match gibt, dann ist das sozusagen ein erster Anker zu sagen, das sind Daten, die wir übernehmen können. Es werden nicht die einzigen sein, da komme ich später noch einmal drauf zurück.
06:24
Und ja, wenn das im Prinzip passiert ist, werden die Track-Titel übernommen in eigene Datensätze. Das bedeutete, dass wir natürlich erst mal gucken und wussten, wo sind die interessanten Elemente bei Musicbrains, die wir auch bei uns verwenden können bzw. in unser Feldschirmata reinbekommen.
06:46
Und dann mussten wir eben auch ein einheitliches Track-Datensatz-Format erst einmal erstellen, weil, wie gesagt, sowas hatten wir bis jetzt noch nicht. Das ist das erste Mal, wo wir da mit so etwas arbeiten, also jedenfalls im Musikrahmen.
07:02
Es ist aber auch so, und das erschien uns eben auch daher notwendig, eben einerseits natürlich, weil wir in eigenen Datensätzen mehr Informationen, die zur Verfügung stehen, übernehmen können. Andererseits, weil wir ja auch zur Sammlung von sogenannten Netzpublikationen,
07:23
also digitalen Inhalten verpflichtet sind und hier eben auch Musik ins Spiel kommen. Und insbesondere im digitalen Raum können wir ja jetzt nicht mehr unbedingt erwarten, dass es dieses Konzept von Tonträgern, wie es ja noch von früher überhaupt noch gibt, also es gibt hier viele Audiofiles, die wirklich nur als Track existieren,
07:46
die zu keiner Zusammenstellung zugehörig sind und die müssen wir natürlich auch verarzen können und von daher halt dieses Track-Modell, das wir erstellen mussten. Und genau, wenn wir diesen Track-Datensatz dann haben, wird er letztlich mit dem Tonträger,
08:06
der im deutschen Musikarchiv ja vorliegt, verlinkt. Ja, wie schon gesagt, wir gehen hier an bestimmten Identifier zu
08:25
und ja, im DMA-Bestand, nachdem wir da das erste Mal diesen Versuch gemacht haben oder geguckt haben, welche Zahlen können wir bei diesem Projekt herausbekommen, war es halt so, dass wir etwa 99.000 Barcodes in Music Brands gefunden haben und diese können abgerufen werden.
08:48
Wir haben natürlich mehr Bestand im deutschen Musikarchiv, das hängt natürlich ein bisschen damit auch zusammen, dass insbesondere Musikdatenbanken international in der Regel vorliegen.
09:01
Die Musikindustrie ist ja auch ein internationales Geschäft und im deutschen Musik aber in erster Linie natürlich Musik, also Tonträger vorliegen, CDs, Schallplatten, die in Deutschland veröffentlicht werden und da gehören natürlich dann auch bis zu kleineren Bootlegs oder independent Veröffentlichungen, die jetzt, wo man nicht erwarten kann, dass die jetzt zumindest in so einer Musikdatenbank vorliegen.
09:25
Da muss man dann vielleicht gucken, ob man diese gegebenenfalls noch woanders rausbekommt. Circa 213.500 Daten im DMA, die wir haben, liegen ohne Track-Information vor.
09:40
Das hat damit zu tun, dass wir damals nicht jede CD, jede Schallplatte wirklich bis aufs letzte erschlossen haben. Es kostet ja, also es bindet ja auch Arbeitskraft, jeden Titel gegebenenfalls abzuschreiben und da gab es halt gewisse, es gibt Sampler, wo es nicht so wirklich viel bringt,
10:02
einen einzelnen Songtitel, ohne jetzt die Beschreibung zu haben, welchen Künstler betrifft das. Es gibt, es wurden beispielsweise Maxi-CDs nicht wirklich erschlossen, es gab früher viele Remix-EPs. Das wurde nicht bis ins Detail sozusagen in die Felder geschrieben und das ist jetzt natürlich möglich,
10:24
indem wir hier Track-Datensätze erstellen können. Hier habe ich jetzt einfach nur mal, dass Sie sich vielleicht etwa vorstellen können, das hintere Bild ist im Prinzip eine Veröffentlichung, so wie sie bei MusicBrands zu finden ist.
10:40
Im Vordergrund ein Katalogisat, so wie es im DNB-Portal vorliegt und hier sehen Sie im Prinzip, es gibt einen Strichcode und im Katalogisat gibt es einen UPC in der DNB und diese sind gleich und das ist dann erstmal der erste Anhänger zu sagen, ok, hier haben wir wahrscheinlich ein Match,
11:05
ein Treffer und da können wir wahrscheinlich die Track-Daten übernehmen. Es gibt halt eine API-Abfrage, die Antwort dessen, da hätte Ihnen jetzt Frau Fondran sicherlich
11:22
etwas mehr erzählen können, erscheint als XML-Dokument und wir haben halt bei MusicBrands verschiedene relevante Angaben, das sollte natürlich vor allem der Titel eines Tracks sein, aber eben auch natürlich der Interpret, der da ist, gegebenenfalls die Dauer des Tracks in Millisekunden,
11:46
die Position des Tracks auf dem Tonträger ist natürlich auch sehr wichtig, Information zu den Künstlern, also insbesondere Name und MusicBrands ID und auch das Erstveröffentlichungsdatum des
12:05
Tracks, sehr kleine Datensetzer, also wo dann wirklich nur die Position des Tracks, Titel, Künstler und Zeit da stehen, das ist dann natürlich ganz kurz gefasst, es gibt aber auch wirklich Veröffentlichungen, da ist bis zum Musikproduzenten und Tontechniker alles verfasst,
12:27
da müssen wir natürlich auch irgendwo eine Grenze setzen, um zu sagen, ok, welche Information nehmen wir und welche Informationen halten wir dann auch nicht mehr für so wichtig, dass wir sich hier in unsere Datensätze übernehmen könnten, um den Datensatz jetzt nicht unnötig
12:42
noch aufzulehnen. Wir haben einen Gesamtlauf gemacht im letzten Jahr, dafür konnten für ja etwa 50.500 Tonträger Daten übernommen werden, also 947.363, um ganz genau zu sagen,
13:04
konnten Trackdatensetzer erstellt werden. Etwa die Hälfte von diesen Tonträgern, die wir da gefunden haben, hatten halt noch gar keine Trackinformationen in den Datensätzen, also da ist es dann wirklich noch ein Mehrwert. Da wir mit Trackdatensätzen arbeiten, heißt es
13:22
natürlich aber auch, dass wir dieser an Veröffentlichungen hängen können, wodurch auch schon der Tracktitel zumindest im Katalogisat steht. Ich habe ja schon gesagt, also wir überprüfen erst einmal am Identifier, am Barcode, aber es hat sich in der Praxis
13:41
gezeigt, dass das leider nicht immer nur dieser eine Anker ist, an dem wir uns halten können, um zu sagen, ok, das ist jetzt ganz sicher die Veröffentlichung, die wir suchen und da übernimmst du jetzt einfach mal alle Daten. Auch das hat sehr viel damit zu tun,
14:00
dass die Musikbranche global agiert und dass man dann aus verschiedenen Ländern Tonträger bekommt, teilweise dann zwar mit demselben Titel, aber wir können natürlich nicht immer automatisch davon ausgehen, dass auf jedem derselbe Inhalt ist. Ja, es kann natürlich durchaus sein, dass es bei internationalen Veröffentlichungen eben noch
14:20
mal dazu kommt, dass vielleicht noch in einem Land ein bestimmter Bonus Track oder ein Remix von einem bekannten DJ sozusagen vorliegt. Und um hier ganz sicher zu gehen, halten wir uns eben nicht nur an diesen einen Anker, sondern sagen auch, schau bitte, stimmt das Musiklabel überein, beziehungsweise das Erscheinungsjahr, beziehungsweise wobei
14:43
wir halt beim Erscheinungsjahr auch gesagt haben, da ist so eine kleine Grenze, da kann man auch sagen, also plus minus ein Jahr, so genau wollen wir da nicht sein, aber wenn das hinhaut, dann können die Daten übernommen werden. Es gibt allerdings auch
15:01
Veröffentlichungen auch im deutschen Musikarchiv, wo leider kein Veröffentlichungsjahr vorliegt und da wird dann eben neben dem Identifier, also dem Barcode und dem Label dann noch mal auf den Titel geguckt und wenn das übereinstimmt, werden die Daten auch übernommen, weil es natürlich insbesondere bei Tonträgern, wo eben nicht so viel intellektuell verzeichnet wurde,
15:22
gerade vom größten Interesse dort mit Fremddaten zu arbeiten. Nichtsdestotrotz sagen wir hier auch natürlich auch bei Musicbrains, dass es da einige Einschränkungen gibt, also wir sagen, dass digitale Medien hier natürlich ausgeschlossen werden, weil wir eben im deutschen
15:43
Musikarchiv sozusagen die physischen Medieneinheiten vorhaben und keine digitalen Einheiten. Das kommt dann eher nachher noch im Bereich, wo ich auch zuständig bin bei Netzpublikationen, Audiophiles, da könnte man eventuell noch mal gucken, ob man hier dann auch später einmal aufgrund unserer Erfahrung mit der Datenanreichung arbeiten kann. Dann
16:05
haben wir auch erst mal im ersten Schritt gesagt, dass wenn es nicht ein 1 zu 1 Match gibt, also sprich, wenn ein Ergebnis mehrere Barcodes hervorruft, eine Abfrage und das ist sowohl bei Musicbrains, es kommt allerdings auch im Bestand des deutschen Musikarchivs vor,
16:22
auch dann werden erst mal keine Daten übernommen, um hier wirklich ganz sicher gehen zu können, dass das, was wir übernehmen, auch wirklich zu dem Tonträger gehört, der bei uns im Archiv liegt. Nichtsdestotrotz gibt es natürlich Überlegungen, insbesondere anhand der Zahlen, dass man hier vielleicht auch noch mal guckt, vielleicht können gewisse
16:44
Filter doch noch reduziert werden und bringen doch noch gute Ergebnisse, die wir dann auch übernehmen können. Das wollen wir jetzt allerdings nicht im ersten Schritt machen und klar, dass bei automatischen Prozessen immer eine gewisse Fehleranfälligkeit vorliegt,
17:02
das ist ganz klar, dass hier nicht ausgeschlossen werden kann, dass wir uns in ein paar Fällen dann eben doch den falschen Tonträger ranholen, aber natürlich in der Masse ist das ein echter Gewinn und da müssen wir halt gucken, wo wir eben die Grenze setzen, um zu sagen, okay, ab hier übernimmst du die Daten und ab wo nicht. Das ist für die CBS-Freunde unter
17:29
ihnen einfach mal nur so, wie halt so ein Datensatz bei uns aussehen würde, das ist allerdings jetzt tatsächlich keine Übernahme, den habe ich vor zwei Jahren einfach nur mal
17:42
anhand der Daten, die wir von MusicBrainz bekommen haben erstellt, einfach mit dem Maximum an Informationen, was wir herauskriegen könnten. Ja, es gibt ja beispielsweise Songs wie hier We Are The Champions, das soll jetzt keine Selbstbeweihräucherung sein, mag den Song einfach und es ist nun mal so, dass es hier natürlich eben für diesen Song ganz
18:05
besonders viele Beispiele gibt und so würde der aussehen, den habe ich einfach mal so als Trockenübung bei unserem Testdatensystem erstellt und Sie sehen im Prinzip dort im 1.241, ne ganz hoch bin ich nicht, da ist im Prinzip die Verknüpfung zu dem Datensatz,
18:27
also dieser Song als der 17. von 17 würde halt dem Tonträger Greatest Tits zugeordnet werden und dann haben wir darunter auch dann bereits und da sind wir dann bei den Netzpublikationen, dass dieser Song eben auch als Online-Ausgabe existiert, im Prinzip wäre
18:44
das ein Audiofile, das wir halt sammeln und übernommen haben, womit die DNB jetzt allerdings auch erst in diesem Jahr anfängt. Von daher, das ist halt eher als Trockenübung zu verstehen, nur dass Sie sich das vielleicht einmal vorstellen können, wie das aussehen
19:01
würde. Ja und wie geht es dann weiter? Es ist halt so, ich habe ja schon gesagt, wir würden halt gucken wollen, wie sieht das mit den Filtern aus, mit den Daten wird so immer weiter gearbeitet, wir müssen gucken, wie gehen wir beispielsweise mit Dupletten um. Es ist ja so, eben gerade bei diesem Beispiel We Are The Champions, das ist ein Track,
19:25
der auf vielen Tonträgern vorliegt, nicht nur auf dem ursprünglichen Album, es gab ihn als Single, es gibt ihn auf Greatest Hits Veröffentlichungen, es gibt ihn auf diversen Samplern und es ist natürlich immer derselbe Track, hier ist dann natürlich auch immer,
19:40
ganz wichtig, auch Tracks haben ja einen Identifier, das ist der International Standard Recording Code, der ISRC, den wir hier natürlich auch übernehmen werden, mit dem wir dann insbesondere auch weiterarbeiten können, wenn wir dann eben auch mal Datensätze, Track-Datensätze untereinander bearbeiten wollen. Genau, diesen Umgang mit Dupletten,
20:03
wir haben uns erstmal gesagt, im ersten Schritt spielen wir die Daten erstmal alle ein und wenn sie dann bei uns vorliegen und wir können über diesen sogenannten ISRC dann feststellen, okay, den gibt es, das ist möglicherweise eine Duplette, dass wir dann hier auch den Track zusammenführen bzw. aus zwei oder mehr Datensätzen einmachen,
20:26
hier dann aber natürlich und das ist eben so ein bisschen die Krux, wie ich es ja auch an dem Datensatz gezeigt habe, es müssen im Prinzip dennoch einige Daten ausgetauscht werden und das ist halt insbesondere dieses Feld, wo drin steht, dieser Track gehört
20:40
nicht nur zum Album, sondern gehört auch zum Greatest Hits Album. Und genauso muss dann irgendwo auch aufgezeigt werden, hier ist der Track an dieser Position zu finden auf dem Album und auf diesem Album ist er eben auf einer anderen Position und das muss hier natürlich sehr genau gemacht werden, da das wiederum oder die ganze Planung
21:03
wieder sehr viel Zeit in Anspruch genommen hätte, haben wir uns erstmal gesagt, wir übernehmen die Datensätze erstmal und schauen, wie wir dann mit diesem bekannten Problem weiterarbeiten. Ja, MusicBrainz soll nicht nur die erste Datenbank sein, mit der wir zusammenarbeiten, wir wollen die Erfahrungen, die wir jetzt gesammelt haben,
21:22
auch dafür nutzen, um vielleicht auch auf weitere Datenbanken zuzugehen, für zumindest in der Musikerschließung ein sehr geläufiges Beispiel ist die Datenbank Discogs, ebenfalls eine internationale Datenbank, als wir vor etwa 10 Jahren sozusagen damit angefangen haben und geguckt haben, okay, wie liegen die Daten in den Datenbanken vor, muss man
21:44
sagen, war halt Discogs leider noch nicht so sauber, das kommt auch ein bisschen daher, dass da auch Daten von Verkäufern eingespielt werden und also sozusagen diese Matchergebnisse waren sehr ungenau anhand dieser Identifier. Das soll sich
22:01
mittlerweile sehr geändert haben, also diese Musikdatenbank Discogs arbeitet auch bereits in Schottland mit einer Universitätsbibliothek zusammen und zwar von der Cornell University und von daher wollen wir mal gucken, wie wir eben auch hier vielleicht den Bestand an Trackdaten setzen, weiter hochschrauben können
22:21
bzw. natürlich auch gucken können, gibt es eben auch bei Discogs Daten, die vielleicht bei MusicBrainz noch nicht vorlagen und die wir dann auch weiter in den Datensatz einspielen können. Die Verzeichnung von Identifier begünstigt, dass wir Daten miteinander vernetzen können, nicht nur in unserem
22:41
Bestand, sondern auch außerhalb unserer Bibliothekswelt und es wäre natürlich auch irgendwann noch mal möglich, das haben wir uns jetzt aber noch nicht angeguckt, dass wir eben auch mal sagen, okay, wir nehmen nicht nur die Daten aus den Trackdaten setzen, sondern gucken auch noch mal auf die Ebene des Musikalbums, gibt es hier vielleicht noch Daten, die wir dann
23:02
auch noch in das einmal intellektuell erschlossene Katalogisat unterbringen können. Genau und dann dadurch, dass wir ja auch einen Artist Identifier haben durch MusicBrainz, könnte man natürlich eben auch gucken, kann der irgendwie eben auch in der GND verknüpft werden und bringt dann dazu, dass wir
23:24
irgendwann dann auch eben, wie wir es schon in ganz vielen anderen Bereichen tun, sagen können, diese M-Bit für den Künstler steht sowohl im Datensatz als auch hier im Normdatensatz und dass wir diese Datensätze dann miteinander verknüpfen können und dass das nicht ohne Verknüpfung dasteht. Ja, damit wäre ich am Ende angekommen. Ich
23:46
bedanke mich für Ihre Aufmerksamkeit und ja, hare gespannt Ihrer Fragen. Vielen Dank.