We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

RDF-Export von Metadaten des TIB AV-Portals

Die Technische Informationsbibliothek hat sich zum Ziel gesetzt, Nutzung und Verbreitung ihrer Sammlungen zu fördern. Vor diesem Hintergrund veröffentlicht die Technische Informationsbibliothek die autoritativen sowie zeitbasierten, automatisch generierten Metadaten von Filmen des TIB AV-Portals als Open Data. Bereitgestellt werden nur Metadaten und Vorschaubilder von Filmen im Bestand der TIB, für die eine Nutzung der Metadaten und Vorschaubilder unter der Lizenz CC0 1.0 Universal vereinbart worden/möglich ist. Bitte beachten Sie, dass die Daten teilweise automatisch generiert wurden und daher Fehler enthalten oder unvollständig sein können.

Darüber hinaus bietet die TIB die Metadaten des TIB AV-Portals auch über eine OAI-Schnittstelle an - in den Formaten OAI Dublin Core, MARC XML oder RDF XML.

Lizenz

Für die Nutzung der Metadaten und der bereitgestellten Vorschaubilder gelten die Bedingungen der Creative Commons Lizenz CC0 1.0 Universal (CC0 1.0) Public Domain Dedication.
(Hier klicken, um zur Zusammenfassung und zum rechtsverbindlichen Lizenztext zu gelangen.)

Anerkennung

Bitte verweisen Sie bei Nutzung der Daten auf die TIB und verlinken auf die Seite https://av.tib.eu/opendata, um die Verbreitung und Nutzung der Daten zu fördern.

Datensätze JSON Lines

Gesamtbestand

Dateiname Format Größe Erzeugt am: Version:
tib-av-portal-opendata-2025-02-24.zip (zipped) application/jsonl ~702.6MiB (unzipped ~2.7GiB) 24.02.2025 2025-02-24

Dokumentation der JSON-Lines-Datensätze

Der Download im JSON-Lines-Format enthält in der ZIP-Datei zwei Dateien: media.jsonl und series.jsonl. Die Datei media.jsonl enthält alle Medien, darunter Videos, Audiodateien und Offline-Medien. In der Datei series.jsonl sind die Datensätze zu den Serien enthalten.

Beide Dateien sind im JSON-Lines-Format abgelegt. Sie enthalten pro Zeile einen Datensatz. Zur besseren Übersicht zeigt die Dokumentation einen exemplarischen Datensatz in strukturierter Form.

Datei media.jsonl
{

Typangabe des Datensatzes: im Fall von Medien-Datensätzen wird hier immer der Wert "media" angegeben.

  "type": "media",

Id des Datensatzes.

  "id": 1,

Die Länge des Mediums in ms.

  "duration": 100000,

Metadaten zu diesem Datensatz.

  "metadata": {

Die verschiedenen Titelangaben zu dem Datensatz: Haupttitel, Untertitel und alternative Titel. Untertitel und alternative Titel können mehrfach angegeben werden.

Alle Titelangaben haben ein value-Feld, in dem der Titel steht, und ein lang-Feld, das die Sprache zu diesem Titel angibt.

    "title": {
      "value": "Titel",
      "lang": "de"
    },
    "subtitles": [
      {
        "value": "Untertitel",
        "lang": "de"
      },
      ...
    ],
    "alternativeTitles": [
      {
        "value": "Alternativer Titel",
        "lang": "de"
      },
      ...
    ],

Jeder Datensatz kann mehrere Abstracts haben. In dem value-Feld steht der eigentliche Text des Abstracts; im lang-Feld wird die Sprache zu diesem Abstract angegeben.

    "abstracts": [
      {
        "value": "Abstract",
        "lang": "de"
      },
      ...
    ],

Eine Liste von Stichwörtern zu diesem Datensatz. Das value-Feld enthält das Stichwort; im lang-Feld wird die Sprache zu diesem Stichwort angegeben.

    "keywords": [
      {
        "value": "Stichwort",
        "lang": "de"
      },
      ...
    ],

Erscheinungsjahr

    "publicationYear": 2025,

Produktionsjahr (Beispiel: 2025 oder 2021-2023)

    "productionYear": "2025",

Produktionsort

    "productionPlace": "Produktionsort",

Sprache des Mediums (ISO 639-2/B).

Zusätzlich können qno (Stummfilm) und qot (Originalton ohne gesprochenen Text) vorkommen.

    "language": "ger",

Verknüpfung zur Serie aus der Datei series.jsonl.

    "series": {
      "id": 1
    },

Liste der Autoren, Mitwirkenden, Herausgeber und Produzenten mit zugehörigen Identifiern.

  • uri: interner Identifier
  • name: Person/Organisation
  • identifiers: siehe Abschnitt "identifiers" unten
    "creators": [
      {
        "uri": "identifier",
        "name": "name",
        "identifiers": [
          {
            "label": "1080328793",
            "url": "http://d-nb.info/gnd/1080328793",
            "type": "GND"
          },
          ...
        ]
      },
      ...
    ],
    "contributors": [
      {
        "uri": "identifier",
        "name": "name"
        "identifiers": [
          {
            "label": "1080328793",
            "url": "http://d-nb.info/gnd/1080328793",
            "type": "GND"
          },
          ...
        ]
      },
      ...
    ],
    "publishers": [
      {
        "uri": "identifier",
        "name": "name"
        "identifiers": [
          {
            "label": "1080328793",
            "url": "http://d-nb.info/gnd/1080328793",
            "type": "GND"
          },
          ...
        ]
      },
      ...
    ],
    "producers": [
      {
        "uri": "identifier",
        "name": "name"
        "identifiers": [
          {
            "label": "1080328793",
            "url": "http://d-nb.info/gnd/1080328793",
            "type": "GND"
          },
          ...
        ]
      },
      ...
    ],

Liste der Lizenzen für das Medium.

    "licenses": [
      {
        "uri": "identifier",
        "shortName": "short name"
      },
      ...
    ],

Weitere Identifier für diesen Datensatz.

  • label: Anzeigetext
  • url: Url für den Identifier-Typ
  • type: ORCID, GND, ISIL, ...
    "identifiers": [
      {
        "label": "label",
        "url": "url",
        "type": "type"
      },
      ...
    ],

Liste der Genres und Fächer mit deutschem und englischem Anzeigetext.

    "genres": [
      {
        "uri": "uri",
        "labels": {
          "de": "Name",
          "en": "Name"
        }
      },
      ...
    ],
    "subjects": [
      {
        "uri": "uri",
        "labels": {
          "de": "Name",
          "en": "Name"
        }
      },
      ...
    ],

Zusatzinformationen für IWF-Filme.

    "iwfTechData": "",
    "iwfSignature": "",
    "iwfClassCodes": [
      {
        "value": "",
        "lang": "de"
      },
      ...
    ],

Liste der Transkriptionen.

  • type:
    • Transcription: Originalsprachliche Transkription
    • Translation: übersetztes Transkript
  • mainTranscript: Haupttranskript?
  • usableAsSubtitle: Ist das Transkript als Untertitel nutzbar?
  • borked: Ist das Transkript wahrscheinlich fehlerhaft?
  • automatic: Wurde das Transkript automatisch erzeugt (ASR)?
  • vtt: Volles Transkript im WebVTT-Format.
    "transcriptions": [
      {
        "id": 1,
        "source": "",
        "type": "",
        "language": "de",
        "version": "",
        "mainTranscript": true,
        "usableAsSubtitle": true,
        "borked": false,
        "automatic": false,
        "vtt": ""
      },
      ...
    ]
  },

Verweis auf eine andere Version dieses Datensatzes, z. B. wird bei Videos oft ein anderssprachiges Video referenziert.

  "otherVersionIds": [
    {
      "id": 1,
      "language": "de"
    },
    ...
  ],

Zeitbasierte Metadaten.

  "segments": {

Liste von Zeitstempeln der Szenenschnitte in ms.

    "scenes": [
      {
        "time": 0
      },
      ...
    ],

Liste von gefundenen Entitäten, die Zeitstempeln zugeordnet sind.

  • time: Zeitstempel in ms
  • items:
    • source: asr (Sprache), ocr (Text) und vcd (Bild)
    • type: thing, concept, person, organization und unknown
    • labels: Anzeigetext auf Deutsch oder Englisch
    "annotations": [
      {
        "time": 0,
        "items": [
          {
            "uri": "",
            "source": "",
            "type": "",
            "labels": {
              "de": "Name",
              "en": "Name"
            }
          },
          ...
        ]
      },
      ...
    ]
  }
}
Datei series.jsonl

Für series.jsonl wird das gleiche Schema verwendet, aber es kommt nur ein Teil der Eigenschaften vor, siehe Beispiel unten.

Die folgenden Felder werden aus den zur Serie gehörenden Medien aggregiert: publishers, genres und subjects.

{
  "type": "series",
  "id": 1,
  "metadata": {
    "title": {
      "value": "Titel",
      "lang": "de"
    },
    "abstracts": [
      {
        "value": "Abstract",
        "lang": "de"
      },
      ...
    ],
    "publishers": [
      {
        "uri": "identifier",
        "name": "name"
      },
      ...
    ],
    "identifiers": [
      {
        "label": "label",
        "url": "url",
        "type": "type"
      },
      ...
    ],
    "genres": [
      {
        "uri": "uri",
        "labels": {
          "de": "Name",
          "en": "Name"
        }
      },
      ...
    ],
    "subjects": [
      {
        "uri": "uri",
        "labels": {
          "de": "Name",
          "en": "Name"
        }
      },
      ...
    ]
  }
}

Datensätze RDF

Gesamtbestand

Dateiname Format Größe Erzeugt am: Version:
tib-av-portal-export-2024-11-28.ttl (zipped) text/turtle ~1.6GiB (unzipped ~17.4GiB) 29.11.2024 2024-11-28

Filme des Herausgebers IWF Wissen und Medien gGmbH i.L.

Diese Dumps sind eine Teilmenge des Gesamtbestands. Sie enthalten nur die Videos des Herausgebers IWF Wissen und Medien gGmbH i.L..

Dateiname Format Größe Erzeugt am: Version:
tib-av-portal-export-iwf-2024-11-28.ttl (zipped) text/turtle ~27.6MiB (unzipped ~244.9MiB) 29.11.2024 2024-11-28

Zusätzliche Daten und Mappings

Mapping der Fächer des TIB AV-Portals auf DBpedia und GND

Dateiname Format Größe Erzeugt am: Version:
tib-av-portal-subjects-1.0.0.ttl application/turtle 11kB 18.03.2016 1.0.0

Mapping der TIB AV-Portal VCD Klassen auf DBpedia, Wikidata und GND

Filename Format Size Date created: Version:
tib-av-portal-classes_vcd-1.0.1.ttl application/turtle 48kB 26.06.2018 1.0.1
tib-av-portal-classes_vcd-1.0.1.n3 application/turtle 11kB 26.06.2018 1.0.1

Dokumentation der RDF-Datensätze

Diese Dokumentation bietet einen kurzen Überlick über die Strukturen der Datensätze des TIB AV-Portals. Es wird erläutert, wie die Datensätze in einer RDF-Datenbank importiert und mit SPARQL abgefragt werden können.

Strukturen der Daten

In diesem Abschnitt wird in die Struktur der RDF-Daten des TIB AV-Portals anhand von Beispielen und Abbildungen erläutert.

Die folgende Tabelle zeigt die verwendeten RDF-Namensräume.

Präfix Namensraum Vokabular
bibframe http​://bibframe.org/vocab/ Bibframe-Vokabular
dbp http​://dbpedia.org/resource/ DBpedia-Ressourcen
dcterms http​://purl.org/dc/terms/ DCMI-Metadata-Terme
dctypes http​://purl.org/dc/dcmitype/ DCMI-Typen-Vokabular
foaf http​://xmlns.com/foaf/0.1/ Friend-of-a-Friend-Vokabular
gnd http​://d-nb.info/gnd/ Integrated Authority File (GND)
schema http​://schema.org/ Schema.org-Vokabular
tib http​://av.tib.eu/resource/ Ressourcen des TIB AV-Portals
cnt http​://www​.w3.org/2011/content# Repräsentiert Inhalte in RDF
itsrdf http​://www​.w3.org/2005/11/its/rdf# Internationalization Tag Set (ITS)
nif http​://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core# NLP Interchange Format
oa http​://www​.w3.org/ns/oa# Open Annotation Data Model
rdf http​://www​.w3.org/1999/02/22-rdf-syntax-ns# Resource Description Framework

Hinweis: Die Verwendung von Schrägstrichen '/' im Präfix-Namen führt bei der Darstellung in Turtle-Syntax zu Problemen. Sie müssen deshalb durch ein vorangestelltes '\' markiert werden (Escape-Sequence).

Beispiel 1: Video-Standard-Metadaten (Datatype Properties / Literale):
tib:video\/16453 schema:name           "Wall-crossing and geometry at infinity of Betti moduli spaces"@en ;
schema:description    "Linear algebraic differential equation (in one variable) depending on a small ..."@en ;
schema:keywords       "Betti moduli"@en ,  "chaos theory"@en,  "singularity"@en ;
schema:date Created   "1973-01-01T00:00:00+01:00"^^<http://www.w3.org/2001/XMLSchema#gYear> .
schema:duration       1:16:48 .
Beispiel 2: Video-Standard-Metadaten (Object Properties)
tib:video\/16453 rdf:type              schema:Movie ;
schema:url            <https://av.tib.eu/media/16453> ;
schema:producer       gnd:4028361-6 ;
schema:publisher      tib:Institut_des_Hautes__tudes_Scientifiques_%28IH_S%29 ;
schema:license        <http://creativecommons.org/licenses/by/3.0/deed.en> ;
schema:availability   schema:OnlineOnly ;
bibframe:doi          <http://dx.doi.org/10.5446/16453> ;
schema:thumbnailUrl   <https://av.tib.eu/images/avpimg1fdaede78b338bba137140fd805cd382> .

tib:Institut_des_Hautes__tudes_Scientifiques_%28IH_S%29  foaf:name  “Institut des Hautes Études Scientifiques (IHÉS)” .

Hinweis: Soweit möglich wurden 'publisher', 'producers', 'creators' etc. auf bereits existierende Wissensbasen und Normdateien (z.B. GND) abgebildet. In einigen Fällen konnte keine entsprechende Zuordnung vorgenommen werden. In diesen Fällen wurden die Ressourcen durch einen IRI mit dem Präfix 'tib:' und den dazugehörigen Informationen (z.B. foaf:name) repräsentiert. In weiteren Versionen der Datensätze des TIB AV-Portals werden diese IRIs, wenn möglich, durch die Referenz der entsprechenden Wissensbasis bzw. Normdatei ersetzt.

Beispiel 3: OCR-Ergebnisse

Bild: Beispiel 3

tib:video\/16453?t=smpte-25:0:28:17:11&xywh=368,316,292,15 dcterms:isPartOf tib:video\/16453 .

tib:ocr\/16453_42436_42436_x368y316h15w292   oa:hasTarget    tib:video\/16453?t=smpte-25:0:28:17:11&xywh=368,316,292,15 ;
oa:hasBody      tib:ocr\/16453_42436_42436_x368y316h15w292?char=0,7 ;
oa:annotatedBy  tib:annotator\/OCR-1.0.0 ;
rdf:type        oa:Annotation .

tib:ocr\/16453_42436_42436_x368y316h15w292?char=0,7 rdf:type nif:Context ;
rdf:type nif:RFC5147String ;
nif:isString “optimal” .
Beispiel 4: VCD-Ergebnisse

Bild: Beispiel 4

tib:video\/16453?t=smpte-25:0:01:02:07 dcterms:isPartOf tib:video\/16453 .

tib:vcd\/16453_1347007_1557  oa:hasTarget   tib:video\/16453?t=smpte-25:0:01:02:07 ;
oa:hasBody     tib:visualconcepts/Lecture ;
oa:annotatedBy tib:annotator\/VCD-1.0.0 ;
oa:motivatedBy oa:tagging ;
rdf:type       oa:Annotation .

tib:visualconcepts\/Lecture  rdf:type oa:SemanticTag .
Beispiel 5: Named Entity Linking der OCR/ASR

Bild: Beispiel 5

tib:video\/16453?t=smpte-25:0:05:00:22,0:05:03:00 dcterms:isPartOf tib:video\/16453 .

tib:asr\/16453_13753838_7522 oa:hasTarget   tib:video\/16453?t=smpte-25:0:05:00:22,0:05:03:00 ;
oa:annotatedBy tib:annotator\/ASR-1.0.0 ;
rdf:type       oa:Annotation ;
oa:hasBody     tib:asr\/16453_13753838_7522#char=0,5617 .

tib:asr\/16453_13753838_7522?char=0,5617 rdf:type nif:Context ;
rdf:type nif:RFC5147String .

tib:asr\/16453_13753838_7522?char=4743,4747 nif:referenceContext tib:asr\/16453_13753838_7522?char=0,5617 ;
itsrdf:taIdentRef gnd:4038613-2 ;
itsrdf:taAnnotatorsRef tib:annotator\/NEL-1.0.0 ;
rdf:type nif:Phrase ;
rdf:type nif:String ;
nif:beginIndex "4743" ;
nif:beginIndex "4747" ;
nif:anchorOf "sets" .