We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Open-Data-Export von Metadaten des TIB AV-Portals

Die Technische Informationsbibliothek hat sich zum Ziel gesetzt, Nutzung und Verbreitung ihrer Sammlungen zu fördern. Vor diesem Hintergrund veröffentlicht die Technische Informationsbibliothek die autoritativen sowie zeitbasierten, automatisch generierten Metadaten von Filmen des TIB AV-Portals als Open Data. Bereitgestellt werden nur Metadaten und Vorschaubilder von Filmen im Bestand der TIB, für die eine Nutzung der Metadaten und Vorschaubilder unter der Lizenz CC0 1.0 Universal vereinbart worden/möglich ist. Bitte beachten Sie, dass die Daten teilweise automatisch generiert wurden und daher Fehler enthalten oder unvollständig sein können.

Darüber hinaus bietet die TIB die Metadaten des TIB AV-Portals auch über eine OAI-Schnittstelle an - in den Formaten OAI Dublin Core, MARC XML oder RDF XML.

Lizenz

Für die Nutzung der Metadaten und der bereitgestellten Vorschaubilder gelten die Bedingungen der Creative Commons Lizenz CC0 1.0 Universal (CC0 1.0) Public Domain Dedication.
(Hier klicken, um zur Zusammenfassung und zum rechtsverbindlichen Lizenztext zu gelangen.)

Anerkennung

Bitte verweisen Sie bei Nutzung der Daten auf die TIB und verlinken auf die Seite https://av.tib.eu/opendata, um die Verbreitung und Nutzung der Daten zu fördern.

Datensätze

Dateiname Format Größe Erzeugt am: Version:
tib-av-portal-opendata-2025-04-07-jsonl.zip (zipped) application/jsonl ~730.9MiB (unzipped ~2.8GiB) 07.04.2025 2025-04-07
tib-av-portal-opendata-2025-04-07-ttl.zip (zipped) text/turtle ~699.5MiB (unzipped ~4.1GiB) 07.04.2025 2025-04-07

Dokumentation

Alle Datensätze werden als ZIP-Dateien zum Download bereitgestellt. Eine ZIP-Datei enthält jeweils zwei Dateien:

  • media.EXT: Alle Medien, darunter Videos, Audiodateien und Offline-Medien.
  • series.EXT: Alle dazugehörigen Serien.

Wir bieten verschiedene Formate mit jeweils eigener Dateiendung (.EXT) an:

  • JSON-Lines (.jsonl)
  • RDF Turtle (.ttl)

JSON-Lines

Beim JSON-Lines-Format enthält jede Zeile einen Datensatz.

Zur besseren Übersicht zeigt die Dokumentation einen exemplarischen Datensatz in strukturierter Form.

Medien

{

Typangabe des Datensatzes: im Fall von Medien-Datensätzen wird hier immer der Wert "media" angegeben.

  "type": "media",

Id des Datensatzes.

  "id": 1,

Die Länge des Mediums in ms.

  "duration": 100000,

Metadaten zu diesem Datensatz.

  "metadata": {

Die verschiedenen Titelangaben zu dem Datensatz: Haupttitel, Untertitel und alternative Titel. Untertitel und alternative Titel können mehrfach angegeben werden.

Alle Titelangaben haben ein value-Feld, in dem der Titel steht, und ein lang-Feld, das die Sprache zu diesem Titel angibt.

    "title": {
      "value": "Titel",
      "lang": "de"
    },
    "subtitles": [
      {
        "value": "Untertitel",
        "lang": "de"
      },
      ...
    ],
    "alternativeTitles": [
      {
        "value": "Alternativer Titel",
        "lang": "de"
      },
      ...
    ],

Jeder Datensatz kann mehrere Abstracts haben. In dem value-Feld steht der eigentliche Text des Abstracts; im lang-Feld wird die Sprache zu diesem Abstract angegeben.

    "abstracts": [
      {
        "value": "Abstract",
        "lang": "de"
      },
      ...
    ],

Eine Liste von Stichwörtern zu diesem Datensatz. Das value-Feld enthält das Stichwort; im lang-Feld wird die Sprache zu diesem Stichwort angegeben.

    "keywords": [
      {
        "value": "Stichwort",
        "lang": "de"
      },
      ...
    ],

Erscheinungsjahr

    "publicationYear": 2025,

Produktionsjahr (Beispiel: 2025 oder 2021-2023)

    "productionYear": "2025",

Produktionsort

    "productionPlace": "Produktionsort",

Sprache des Mediums (ISO 639-2/B).

Zusätzlich können qno (Stummfilm) und qot (Originalton ohne gesprochenen Text) vorkommen.

    "language": "ger",

Verknüpfung zur Serie aus der Datei series.jsonl.

    "series": {
      "id": 1
    },

Liste der Autoren, Mitwirkenden, Herausgeber und Produzenten mit zugehörigen Identifiern.

  • uri: interner Identifier
  • name: Person/Organisation
  • identifiers: siehe Abschnitt "identifiers" unten
    "creators": [
      {
        "uri": "identifier",
        "name": "name",
        "identifiers": [
          {
            "label": "1080328793",
            "url": "http://d-nb.info/gnd/1080328793",
            "type": "GND"
          },
          ...
        ]
      },
      ...
    ],
    "contributors": [
      {
        "uri": "identifier",
        "name": "name"
        "identifiers": [
          {
            "label": "1080328793",
            "url": "http://d-nb.info/gnd/1080328793",
            "type": "GND"
          },
          ...
        ]
      },
      ...
    ],
    "publishers": [
      {
        "uri": "identifier",
        "name": "name"
        "identifiers": [
          {
            "label": "1080328793",
            "url": "http://d-nb.info/gnd/1080328793",
            "type": "GND"
          },
          ...
        ]
      },
      ...
    ],
    "producers": [
      {
        "uri": "identifier",
        "name": "name"
        "identifiers": [
          {
            "label": "1080328793",
            "url": "http://d-nb.info/gnd/1080328793",
            "type": "GND"
          },
          ...
        ]
      },
      ...
    ],

Liste der Lizenzen für das Medium.

    "licenses": [
      {
        "uri": "identifier",
        "shortName": "short name"
      },
      ...
    ],

Weitere Identifier für diesen Datensatz.

  • label: Anzeigetext
  • url: Url für den Identifier-Typ
  • type: ORCID, GND, ISIL, ...
    "identifiers": [
      {
        "label": "label",
        "url": "url",
        "type": "type"
      },
      ...
    ],

Liste der Genres und Fächer mit deutschem und englischem Anzeigetext.

    "genres": [
      {
        "uri": "uri",
        "labels": {
          "de": "Name",
          "en": "Name"
        }
      },
      ...
    ],
    "subjects": [
      {
        "uri": "uri",
        "labels": {
          "de": "Name",
          "en": "Name"
        }
      },
      ...
    ],

Zusatzinformationen für IWF-Filme.

    "iwfTechData": "",
    "iwfSignature": "",
    "iwfClassCodes": [
      {
        "value": "",
        "lang": "de"
      },
      ...
    ],

Liste der Transkriptionen.

  • type:
    • Transcription: Originalsprachliche Transkription
    • Translation: übersetztes Transkript
  • usableAsSubtitle: Ist das Transkript als Untertitel nutzbar?
  • borked: Ist das Transkript wahrscheinlich fehlerhaft?
  • automatic: Wurde das Transkript automatisch erzeugt (ASR)?
  • vtt: Volles Transkript im WebVTT-Format.
    "transcriptions": [
      {
        "id": 1,
        "source": "",
        "type": "",
        "language": "de",
        "version": "",
        "usableAsSubtitle": true,
        "borked": false,
        "automatic": false,
        "vtt": ""
      },
      ...
    ]
  },

Verweis auf eine andere Version dieses Datensatzes, z. B. wird bei Videos oft ein anderssprachiges Video referenziert.

  "otherVersionIds": [
    {
      "id": 1,
      "language": "de"
    },
    ...
  ],

Zeitbasierte Metadaten.

  "segments": {

Liste von Zeitstempeln der Szenenschnitte in ms.

    "scenes": [
      {
        "time": 0
      },
      ...
    ],

Liste von gefundenen Entitäten, die Zeitstempeln zugeordnet sind.

  • time: Zeitstempel in ms
  • items:
    • source: asr (Sprache), ocr (Text) und vcd (Bild)
    • type: thing, concept, person, organization und unknown
    • labels: Anzeigetext auf Deutsch oder Englisch
    "annotations": [
      {
        "time": 0,
        "items": [
          {
            "uri": "",
            "source": "",
            "type": "",
            "labels": {
              "de": "Name",
              "en": "Name"
            }
          },
          ...
        ]
      },
      ...
    ]
  }
}

Serien

Für series.jsonl wird das gleiche Schema verwendet, aber es kommt nur ein Teil der Eigenschaften vor, siehe Beispiel unten.

Die folgenden Felder werden aus den zur Serie gehörenden Medien aggregiert: publishers, genres und subjects.

{
  "type": "series",
  "id": 1,
  "metadata": {
    "title": {
      "value": "Titel",
      "lang": "de"
    },
    "abstracts": [
      {
        "value": "Abstract",
        "lang": "de"
      },
      ...
    ],
    "publishers": [
      {
        "uri": "identifier",
        "name": "name"
      },
      ...
    ],
    "identifiers": [
      {
        "label": "label",
        "url": "url",
        "type": "type"
      },
      ...
    ],
    "genres": [
      {
        "uri": "uri",
        "labels": {
          "de": "Name",
          "en": "Name"
        }
      },
      ...
    ],
    "subjects": [
      {
        "uri": "uri",
        "labels": {
          "de": "Name",
          "en": "Name"
        }
      },
      ...
    ]
  }
}

RDF

Die RDF-Datendatensätze enthalten dieselben Informationen wie die JSON-Lines-Datensätze. Zur genaueren Dokumentation einzelner Felder wird auf die obige JSON-Lines-Dokumentation verwiesen.

Als RDF-Serialisierung wurde RDF Turtle gewählt.

Namensräume

Die folgende Tabelle zeigt die verwendeten RDF-Namensräume und Ontologien:

Präfix Namensraum Vokabular
dcterms http://purl.org/dc/terms/ DCMI-Metadata-Terme
gnd http://d-nb.info/gnd/ Gemeinsame Normdatei
iso639 http://id.loc.gov/vocabulary/iso639-2/ ISO-639-2-Sprachen
rdf http://www.w3.org/1999/02/22-rdf-syntax-ns# Resource Description Framework
schema http://schema.org/ Schema.org-Vokabular
tib http://av.tib.eu/resource/ AV-Portal-Ontologie

AV-Portal-Ontologie

Dokumentation des TIB-AV-Portal-Namensraums http://av.tib.eu/resource/ (tib:).

Prädikate

Vergleiche auch JSON-Lines-Dokumentation.

  • Zusatzinformationen für IWF-Filme
    • iwfTechData
    • iwfSignature
    • iwfClassCode
  • Eigenschaften von Transkriptionen
    • asrSource
    • asrType
    • asrVersion
    • asrUsableAsSubtitle
    • asrBorked
    • asrAutomatic
  • Szenen
    • scene
  • Segmente mit Annotation
    • segment
    • annotatedBy
    • annotationSource
    • annotationType
    • annotation
Ressourcen
  • genre/<ID>
  • media/<ID>
  • series/<ID>
  • subject/<ID>
  • transcription/<ID>
  • visualconcepts/<ID>

Beispiele

Metadaten
<http://av.tib.eu/resource/media/42>
        rdf:type                    schema:MediaObject;
        tib:iwfClassCode            "biology"@en;
        tib:iwfSignature            "X 00";
        tib:iwfTechData             "Film, 16mm";
        dcterms:subject             <http://av.tib.eu/resource/subject/Life_Sciences>;
        schema:abstract             "my abstract."@en;
        schema:alternateName        "Mein Titel"@de;
        schema:alternativeHeadline  "Secondary Title"@en;
        schema:contributor          [ schema:name  "Contributor" ];
        schema:creator              [ schema:name  "Second Creator" ];
        schema:creator              [ schema:identifier  <https://orcid/0000-0000-0000>;
                                      schema:name        "John Smith"
                                    ];
        schema:dateCreated          "1998-1999";
        schema:datePublished        "2000";
        schema:genre                <http://av.tib.eu/resource/genre/Documentation_Report>;
        schema:identifier           <https://doi.org/10.5072/test>;
        schema:inLanguage           iso639:eng;
        schema:isPartOf             <http://av.tib.eu/resource/series/11>;
        schema:keywords             "foobar"@en;
        schema:license              <http://creativecommons.org/licenses/by-nc-sa/3.0/de/>;
        schema:locationCreated      "Hannover";
        schema:name                 "My Title"@en;
        schema:producers            [ schema:name  "Producer" ];
        schema:publisher            [ schema:name  "Publisher" ];
        schema:thumbnailUrl         <https://av.tib.eu/thumbnail/42>;
        schema:url                  <https://av.tib.eu/media/42> .
Transkriptionen
<http://av.tib.eu/resource/transcription/100>
        tib:asrAutomatic         true;
        tib:asrBorked            false;
        tib:asrSource            "Whisper";
        tib:asrType              "Transcription";
        tib:asrUsableAsSubtitle  true;
        tib:asrVersion           "whisper-ctranslate2=0.5.0@medium";
        schema:language          "en";
        schema:transcript        "WEBVTT\n\n00:00:00.000 --> 00:00:05.000\nHello world!\n" .
<http://av.tib.eu/resource/media/42>
        rdf:type              schema:MediaObject;
        schema:thumbnailUrl   <https://av.tib.eu/thumbnail/42>;
        schema:transcription  <http://av.tib.eu/resource/transcription/100>;
        schema:url            <https://av.tib.eu/media/42> .
Szenen
<http://av.tib.eu/resource/media/42>
        rdf:type             schema:MediaObject;
        tib:scene            [ rdf:type          schema:Clip;
                               schema:startTime  "01:40"
                             ];
        tib:scene            [ rdf:type          schema:Clip;
                               schema:startTime  "00:10"
                             ];
        schema:thumbnailUrl  <https://av.tib.eu/thumbnail/42>;
        schema:url           <https://av.tib.eu/media/42> .
Annotationen
<http://av.tib.eu/resource/media/42>
        rdf:type             schema:MediaObject;
        tib:segment          [ rdf:type          schema:Clip;
                               tib:annotatedBy   [ tib:annotation        <http://av.tib.eu/resource/visualconcepts/diagram>;
                                                   tib:annotationSource  "vcd";
                                                   tib:annotationType    "concept"
                                                 ];
                               schema:startTime  "11:40"
                             ];
        tib:segment          [ rdf:type          schema:Clip;
                               tib:annotatedBy   [ tib:annotation        <http://av.tib.eu/resource/visualconcepts/diagram>;
                                                   tib:annotationSource  "vcd";
                                                   tib:annotationType    "concept"
                                                 ];
                               tib:annotatedBy   [ tib:annotation        gnd:4193845-8;
                                                   tib:annotationSource  "asr";
                                                   tib:annotationType    "thing"
                                                 ];
                               schema:startTime  "00:50"
                             ];
        schema:thumbnailUrl  <https://av.tib.eu/thumbnail/42>;
        schema:url           <https://av.tib.eu/media/42> .
gnd:4193845-8  rdf:label  "Summation"@en , "Summe"@de .
<http://av.tib.eu/resource/visualconcepts/diagram>
        rdf:label  "Diagram"@en , "Diagramm"@de .
Serien
<http://av.tib.eu/resource/series/42>
        rdf:type     schema:Series;
        schema:name  "My Series"@en;
        schema:url   <https://av.tib.eu/series/42> .