Open-Data-Export von Metadaten des TIB AV-Portals
Die Technische Informationsbibliothek hat sich zum Ziel gesetzt, Nutzung und Verbreitung ihrer Sammlungen zu fördern. Vor diesem Hintergrund veröffentlicht die Technische Informationsbibliothek die autoritativen sowie zeitbasierten, automatisch generierten Metadaten von Filmen des TIB AV-Portals als Open Data. Bereitgestellt werden nur Metadaten und Vorschaubilder von Filmen im Bestand der TIB, für die eine Nutzung der Metadaten und Vorschaubilder unter der Lizenz CC0 1.0 Universal vereinbart worden/möglich ist. Bitte beachten Sie, dass die Daten teilweise automatisch generiert wurden und daher Fehler enthalten oder unvollständig sein können.
Darüber hinaus bietet die TIB die Metadaten des TIB AV-Portals auch über eine OAI-Schnittstelle an - in den Formaten OAI Dublin Core, MARC XML oder RDF XML.
Inhaltsverzeichnis
Lizenz
Für die Nutzung der Metadaten und der bereitgestellten Vorschaubilder gelten die Bedingungen der Creative Commons Lizenz CC0 1.0 Universal (CC0 1.0) Public Domain Dedication.
(Hier klicken, um zur Zusammenfassung und zum rechtsverbindlichen Lizenztext zu gelangen.)
Anerkennung
Bitte verweisen Sie bei Nutzung der Daten auf die TIB und verlinken auf die Seite https://av.tib.eu/opendata, um die Verbreitung und Nutzung der Daten zu fördern.
Datensätze
Dateiname | Format | Größe | Erzeugt am: | Version: |
---|---|---|---|---|
tib-av-portal-opendata-2025-04-07-jsonl.zip (zipped) | application/jsonl | ~730.9MiB (unzipped ~2.8GiB) | 07.04.2025 | 2025-04-07 |
tib-av-portal-opendata-2025-04-07-ttl.zip (zipped) | text/turtle | ~699.5MiB (unzipped ~4.1GiB) | 07.04.2025 | 2025-04-07 |
Dokumentation
Alle Datensätze werden als ZIP-Dateien zum Download bereitgestellt. Eine ZIP-Datei enthält jeweils zwei Dateien:
media.EXT
: Alle Medien, darunter Videos, Audiodateien und Offline-Medien.series.EXT
: Alle dazugehörigen Serien.
Wir bieten verschiedene Formate mit jeweils eigener Dateiendung (.EXT
) an:
- JSON-Lines (
.jsonl
) - RDF Turtle (
.ttl
)
JSON-Lines
Beim JSON-Lines-Format enthält jede Zeile einen Datensatz.
Zur besseren Übersicht zeigt die Dokumentation einen exemplarischen Datensatz in strukturierter Form.
Medien
{
Typangabe des Datensatzes: im Fall von Medien-Datensätzen wird hier immer der Wert "media" angegeben.
"type": "media",
Id des Datensatzes.
"id": 1,
Die Länge des Mediums in ms.
"duration": 100000,
Metadaten zu diesem Datensatz.
"metadata": {
Die verschiedenen Titelangaben zu dem Datensatz: Haupttitel, Untertitel und alternative Titel. Untertitel und alternative Titel können mehrfach angegeben werden.
Alle Titelangaben haben ein value-Feld, in dem der Titel steht, und ein lang-Feld, das die Sprache zu diesem Titel angibt.
"title": {
"value": "Titel",
"lang": "de"
},
"subtitles": [
{
"value": "Untertitel",
"lang": "de"
},
...
],
"alternativeTitles": [
{
"value": "Alternativer Titel",
"lang": "de"
},
...
],
Jeder Datensatz kann mehrere Abstracts haben. In dem value-Feld steht der eigentliche Text des Abstracts; im lang-Feld wird die Sprache zu diesem Abstract angegeben.
"abstracts": [
{
"value": "Abstract",
"lang": "de"
},
...
],
Eine Liste von Stichwörtern zu diesem Datensatz. Das value-Feld enthält das Stichwort; im lang-Feld wird die Sprache zu diesem Stichwort angegeben.
"keywords": [
{
"value": "Stichwort",
"lang": "de"
},
...
],
Erscheinungsjahr
"publicationYear": 2025,
Produktionsjahr (Beispiel: 2025
oder 2021-2023
)
"productionYear": "2025",
Produktionsort
"productionPlace": "Produktionsort",
Sprache des Mediums (ISO 639-2/B).
Zusätzlich können qno
(Stummfilm) und qot
(Originalton ohne gesprochenen Text) vorkommen.
"language": "ger",
Verknüpfung zur Serie aus der Datei series.jsonl.
"series": {
"id": 1
},
Liste der Autoren, Mitwirkenden, Herausgeber und Produzenten mit zugehörigen Identifiern.
- uri: interner Identifier
- name: Person/Organisation
- identifiers: siehe Abschnitt "identifiers" unten
"creators": [
{
"uri": "identifier",
"name": "name",
"identifiers": [
{
"label": "1080328793",
"url": "http://d-nb.info/gnd/1080328793",
"type": "GND"
},
...
]
},
...
],
"contributors": [
{
"uri": "identifier",
"name": "name"
"identifiers": [
{
"label": "1080328793",
"url": "http://d-nb.info/gnd/1080328793",
"type": "GND"
},
...
]
},
...
],
"publishers": [
{
"uri": "identifier",
"name": "name"
"identifiers": [
{
"label": "1080328793",
"url": "http://d-nb.info/gnd/1080328793",
"type": "GND"
},
...
]
},
...
],
"producers": [
{
"uri": "identifier",
"name": "name"
"identifiers": [
{
"label": "1080328793",
"url": "http://d-nb.info/gnd/1080328793",
"type": "GND"
},
...
]
},
...
],
Liste der Lizenzen für das Medium.
"licenses": [
{
"uri": "identifier",
"shortName": "short name"
},
...
],
Weitere Identifier für diesen Datensatz.
- label: Anzeigetext
- url: Url für den Identifier-Typ
- type: ORCID, GND, ISIL, ...
"identifiers": [
{
"label": "label",
"url": "url",
"type": "type"
},
...
],
Liste der Genres und Fächer mit deutschem und englischem Anzeigetext.
"genres": [
{
"uri": "uri",
"labels": {
"de": "Name",
"en": "Name"
}
},
...
],
"subjects": [
{
"uri": "uri",
"labels": {
"de": "Name",
"en": "Name"
}
},
...
],
Zusatzinformationen für IWF-Filme.
"iwfTechData": "",
"iwfSignature": "",
"iwfClassCodes": [
{
"value": "",
"lang": "de"
},
...
],
Liste der Transkriptionen.
- type:
Transcription
: Originalsprachliche TranskriptionTranslation
: übersetztes Transkript
- usableAsSubtitle: Ist das Transkript als Untertitel nutzbar?
- borked: Ist das Transkript wahrscheinlich fehlerhaft?
- automatic: Wurde das Transkript automatisch erzeugt (ASR)?
- vtt: Volles Transkript im WebVTT-Format.
"transcriptions": [
{
"id": 1,
"source": "",
"type": "",
"language": "de",
"version": "",
"usableAsSubtitle": true,
"borked": false,
"automatic": false,
"vtt": ""
},
...
]
},
Verweis auf eine andere Version dieses Datensatzes, z. B. wird bei Videos oft ein anderssprachiges Video referenziert.
"otherVersionIds": [
{
"id": 1,
"language": "de"
},
...
],
Zeitbasierte Metadaten.
"segments": {
Liste von Zeitstempeln der Szenenschnitte in ms.
"scenes": [
{
"time": 0
},
...
],
Liste von gefundenen Entitäten, die Zeitstempeln zugeordnet sind.
- time: Zeitstempel in ms
- items:
- source:
asr
(Sprache),ocr
(Text) undvcd
(Bild) - type:
thing
,concept
,person
,organization
undunknown
- labels: Anzeigetext auf Deutsch oder Englisch
- source:
"annotations": [
{
"time": 0,
"items": [
{
"uri": "",
"source": "",
"type": "",
"labels": {
"de": "Name",
"en": "Name"
}
},
...
]
},
...
]
}
}
Serien
Für series.jsonl wird das gleiche Schema verwendet, aber es kommt nur ein Teil der Eigenschaften vor, siehe Beispiel unten.
Die folgenden Felder werden aus den zur Serie gehörenden Medien aggregiert: publishers
, genres
und subjects
.
{
"type": "series",
"id": 1,
"metadata": {
"title": {
"value": "Titel",
"lang": "de"
},
"abstracts": [
{
"value": "Abstract",
"lang": "de"
},
...
],
"publishers": [
{
"uri": "identifier",
"name": "name"
},
...
],
"identifiers": [
{
"label": "label",
"url": "url",
"type": "type"
},
...
],
"genres": [
{
"uri": "uri",
"labels": {
"de": "Name",
"en": "Name"
}
},
...
],
"subjects": [
{
"uri": "uri",
"labels": {
"de": "Name",
"en": "Name"
}
},
...
]
}
}
RDF
Die RDF-Datendatensätze enthalten dieselben Informationen wie die JSON-Lines-Datensätze. Zur genaueren Dokumentation einzelner Felder wird auf die obige JSON-Lines-Dokumentation verwiesen.
Als RDF-Serialisierung wurde RDF Turtle gewählt.
Namensräume
Die folgende Tabelle zeigt die verwendeten RDF-Namensräume und Ontologien:
Präfix | Namensraum | Vokabular |
---|---|---|
dcterms | http://purl.org/dc/terms/ | DCMI-Metadata-Terme |
gnd | http://d-nb.info/gnd/ | Gemeinsame Normdatei |
iso639 | http://id.loc.gov/vocabulary/iso639-2/ | ISO-639-2-Sprachen |
rdf | http://www.w3.org/1999/02/22-rdf-syntax-ns# | Resource Description Framework |
schema | http://schema.org/ | Schema.org-Vokabular |
tib | http://av.tib.eu/resource/ | AV-Portal-Ontologie |
AV-Portal-Ontologie
Dokumentation des TIB-AV-Portal-Namensraums http://av.tib.eu/resource/
(tib:
).
Prädikate
Vergleiche auch JSON-Lines-Dokumentation.
- Zusatzinformationen für IWF-Filme
iwfTechData
iwfSignature
iwfClassCode
- Eigenschaften von Transkriptionen
asrSource
asrType
asrVersion
asrUsableAsSubtitle
asrBorked
asrAutomatic
- Szenen
scene
- Segmente mit Annotation
segment
annotatedBy
annotationSource
annotationType
annotation
Ressourcen
genre/<ID>
media/<ID>
series/<ID>
subject/<ID>
transcription/<ID>
visualconcepts/<ID>
Beispiele
Metadaten
<http://av.tib.eu/resource/media/42>
rdf:type schema:MediaObject;
tib:iwfClassCode "biology"@en;
tib:iwfSignature "X 00";
tib:iwfTechData "Film, 16mm";
dcterms:subject <http://av.tib.eu/resource/subject/Life_Sciences>;
schema:abstract "my abstract."@en;
schema:alternateName "Mein Titel"@de;
schema:alternativeHeadline "Secondary Title"@en;
schema:contributor [ schema:name "Contributor" ];
schema:creator [ schema:name "Second Creator" ];
schema:creator [ schema:identifier <https://orcid/0000-0000-0000>;
schema:name "John Smith"
];
schema:dateCreated "1998-1999";
schema:datePublished "2000";
schema:genre <http://av.tib.eu/resource/genre/Documentation_Report>;
schema:identifier <https://doi.org/10.5072/test>;
schema:inLanguage iso639:eng;
schema:isPartOf <http://av.tib.eu/resource/series/11>;
schema:keywords "foobar"@en;
schema:license <http://creativecommons.org/licenses/by-nc-sa/3.0/de/>;
schema:locationCreated "Hannover";
schema:name "My Title"@en;
schema:producers [ schema:name "Producer" ];
schema:publisher [ schema:name "Publisher" ];
schema:thumbnailUrl <https://av.tib.eu/thumbnail/42>;
schema:url <https://av.tib.eu/media/42> .
Transkriptionen
<http://av.tib.eu/resource/transcription/100>
tib:asrAutomatic true;
tib:asrBorked false;
tib:asrSource "Whisper";
tib:asrType "Transcription";
tib:asrUsableAsSubtitle true;
tib:asrVersion "whisper-ctranslate2=0.5.0@medium";
schema:language "en";
schema:transcript "WEBVTT\n\n00:00:00.000 --> 00:00:05.000\nHello world!\n" .
<http://av.tib.eu/resource/media/42>
rdf:type schema:MediaObject;
schema:thumbnailUrl <https://av.tib.eu/thumbnail/42>;
schema:transcription <http://av.tib.eu/resource/transcription/100>;
schema:url <https://av.tib.eu/media/42> .
Szenen
<http://av.tib.eu/resource/media/42>
rdf:type schema:MediaObject;
tib:scene [ rdf:type schema:Clip;
schema:startTime "01:40"
];
tib:scene [ rdf:type schema:Clip;
schema:startTime "00:10"
];
schema:thumbnailUrl <https://av.tib.eu/thumbnail/42>;
schema:url <https://av.tib.eu/media/42> .
Annotationen
<http://av.tib.eu/resource/media/42>
rdf:type schema:MediaObject;
tib:segment [ rdf:type schema:Clip;
tib:annotatedBy [ tib:annotation <http://av.tib.eu/resource/visualconcepts/diagram>;
tib:annotationSource "vcd";
tib:annotationType "concept"
];
schema:startTime "11:40"
];
tib:segment [ rdf:type schema:Clip;
tib:annotatedBy [ tib:annotation <http://av.tib.eu/resource/visualconcepts/diagram>;
tib:annotationSource "vcd";
tib:annotationType "concept"
];
tib:annotatedBy [ tib:annotation gnd:4193845-8;
tib:annotationSource "asr";
tib:annotationType "thing"
];
schema:startTime "00:50"
];
schema:thumbnailUrl <https://av.tib.eu/thumbnail/42>;
schema:url <https://av.tib.eu/media/42> .
gnd:4193845-8 rdf:label "Summation"@en , "Summe"@de .
<http://av.tib.eu/resource/visualconcepts/diagram>
rdf:label "Diagram"@en , "Diagramm"@de .
Serien
<http://av.tib.eu/resource/series/42>
rdf:type schema:Series;
schema:name "My Series"@en;
schema:url <https://av.tib.eu/series/42> .