Bestand wählen

RDF-Export von Metadaten des TIB AV-Portals

Die Technische Informationsbibliothek hat sich zum Ziel gesetzt, Nutzung und Verbreitung ihrer Sammlungen zu fördern. Vor diesem Hintergrund veröffentlicht die Technische Informationsbibliothek die autoritativen sowie zeitbasierten, automatisch generierten Metadaten von Filmen des TIB AV-Portals als Linked Open Data. Bereitgestellt werden nur Metadaten und Vorschaubilder von Filmen im Bestand der TIB, für die eine Nutzung der Metadaten und Vorschaubilder unter der Lizenz CC0 1.0 Universal vereinbart worden/möglich ist. Bitte beachten Sie, dass die Daten teilweise automatisch generiert wurden und daher Fehler enthalten oder unvollständig sein können.

Datensätze


Gesamtbestand

Dateiname Format Größe Erzeugt am: Version:
tib-av-portal-export-1.2.1.rdf.zip rdf/xml 231M (unzipped 4191M) 25.04.2018 1.2.1
tib-av-portal-export-1.2.1.nt.zip text/n-triples 227M (unzipped 3178M) 25.04.2018 1.2.1
tib-av-portal-export-1.2.1.ttl.zip text/turtle 221M (unzipped 2134M) 25.04.2018 1.2.1

TIB-Fächer: Technik sowie Architektur, Chemie, Informatik, Mathematik und Physik

Diese Dumps sind eine Teilmenge des Gesamtbestands. Sie enthalten die Videos zu den TIB-Fächern Technik sowie Architektur, Chemie, Informatik, Mathematik und Physik.
Dateiname Format Größe Erzeugt am: Version:
tib-av-portal-export-tib-subjects-1.2.1.rdf.zip rdf/xml 225M (unzipped 4105M) 25.04.2018 1.2.1
tib-av-portal-export-tib-subjects-1.2.1.nt.zip text/n-triples 221M (unzipped 3114M) 25.04.2018 1.2.1
tib-av-portal-export-tib-subjects-1.2.1.ttl.zip text/turtle 215M (unzipped 2085M) 25.04.2018 1.2.1

Filme des Herausgebers IWF Wissen und Medien gGmbH i.L.

Diese Dumps sind eine Teilmenge des Gesamtbestands. Sie enthalten nur die Videos des Herausgebers IWF Wissen und Medien gGmbH i.L..
Dateiname Format Größe Erzeugt am: Version:
tib-av-portal-export-iwf-1.2.1.rdf.zip rdf/xml 10M (unzipped 151M) 25.04.2018 1.2.1
tib-av-portal-export-iwf-1.2.1.nt.zip text/n-triples 10M (unzipped 113M) 25.04.2018 1.2.1
tib-av-portal-export-iwf-1.2.1.ttl.zip text/turtle 10M (unzipped 81M) 25.04.2018 1.2.1

Zusätzliche Daten und Mappings

Mapping der Fächer des TIB AV-Portals auf DBpedia und GND
Dateiname Format Größe Erzeugt am: Version:
tib-av-portal-subjects-1.0.0.ttl application/turtle 11kB 18.03.2016 1.0.0

Mapping der TIB AV-Portal VCD Klassen auf DBpedia, Wikidata und GND
Filename Format Size Date created: Version:
tib-av-portal-classes_vcd-1.0.0.ttl application/turtle 48kB 05.12.2017 1.0.0
tib-av-portal-classes_vcd-1.0.0.n3 application/turtle 11kB 05.12.2017 1.0.0

Lizenz

Für die Nutzung der Metadaten und der bereitgestellten Vorschaubilder gelten die Bedingungen der Creative Commons Lizenz CC0 1.0 Universal (CC0 1.0) Public Domain Dedication.
(Hier klicken, um zur Zusammenfassung und zum rechtsverbindlichen Lizenztext zu gelangen.)

Anerkennung

Bitte verweisen Sie bei Nutzung der Daten auf die TIB und verlinken auf die Seite https://av.tib.eu/opendata, um die Verbreitung und Nutzung der Daten zu fördern.

Dokumentation der Datensätze

Diese Dokumentation bietet einen kurzen Überlick über die Strukturen der Datensätze des TIB AV-Portals. Es wird erläutert, wie die Datensätze in einer RDF-Datenbank importiert und mit SPARQL abgefragt werden können.

Strukturen der Daten

In diesem Abschnitt wird in die Struktur der RDF-Daten des TIB AV-Portals anhand von Beispielen und Abbildungen erläutert.

Die folgende Tabelle zeigt die verwendeten RDF-Namensräume.

PräfixNamensraumVokabular
bibframehttp://bibframe.org/vocab/Bibframe-Vokabular
dbphttp://dbpedia.org/resource/DBpedia-Ressourcen
dctermshttp://purl.org/dc/terms/DCMI-Metadata-Terme
dctypeshttp://purl.org/dc/dcmitype/DCMI-Typen-Vokabular
foafhttp://xmlns.com/foaf/0.1/Friend-of-a-Friend-Vokabular
gndhttp://d-nb.info/gnd/Integrated Authority File (GND)
schemahttp://schema.org/Schema.org-Vokabular
tibhttp://av.tib.eu/resource/Ressourcen des TIB AV-Portals
cnthttp://www.w3.org/2011/content#Repräsentiert Inhalte in RDF
itsrdfhttp://www.w3.org/2005/11/its/rdf#Internationalization Tag Set (ITS)
nifhttp://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#NLP Interchange Format
oahttp://www.w3.org/ns/oa#Open Annotation Data Model
rdfhttp://www.w3.org/1999/02/22-rdf-syntax-ns#Resource Description Framework

Hinweis:Die Verwendung von Schrägstrichen '/' im Präfix-Namen führt bei der Darstellung in Turtle-Syntax zu Problemen. Sie müssen deshalb durch ein vorangestelltes '\' markiert werden (Escape-Sequence).

Beispiel 1: Video-Standard-Metadaten (Datatype Properties / Literale):

    tib:video\/16453 schema:name           "Wall-crossing and geometry at infinity of Betti moduli spaces"@en ;
    schema:description    "Linear algebraic differential equation (in one variable) depending on a small ..."@en ;
    schema:keywords       "Betti moduli"@en ,  "chaos theory"@en,  "singularity"@en ;
    schema:date Created   "1973-01-01T00:00:00+01:00"^^<http://www.w3.org/2001/XMLSchema#gYear> .
    schema:duration       1:16:48 .
  
Beispiel 2: Video-Standard-Metadaten (Object Properties)

    tib:video\/16453 rdf:type              schema:Movie ;
    schema:url            <https://av.tib.eu/media/16453> ;
    schema:producer       gnd:4028361-6 ;
    schema:publisher      tib:Institut_des_Hautes__tudes_Scientifiques_%28IH_S%29 ;
    schema:license        <http://creativecommons.org/licenses/by/3.0/deed.en> ;
    schema:availability   schema:OnlineOnly ;
    bibframe:doi          <http://dx.doi.org/10.5446/16453> ;
    schema:thumbnailUrl   <https://av.tib.eu/images/avpimg1fdaede78b338bba137140fd805cd382> .

    tib:Institut_des_Hautes__tudes_Scientifiques_%28IH_S%29  foaf:name  “Institut des Hautes Études Scientifiques (IHÉS)” .
  

Hinweis: Soweit möglich wurden 'publisher', 'producers', 'creators' etc. auf bereits existierende Wissensbasen und Normdateien (z.B. GND) abgebildet. In einigen Fällen konnte keine entsprechende Zuordnung vorgenommen werden. In diesen Fällen wurden die Ressourcen durch einen IRI mit dem Präfix 'tib:' und den dazugehörigen Informationen (z.B. foaf:name) repräsentiert. In weiteren Versionen der Datensätze des TIB AV-Portals werden diese IRIs, wenn möglich, durch die Referenz der entsprechenden Wissensbasis bzw. Normdatei ersetzt.

Beispiel 3: ASR-Transkripte
Bild: Beispiel 3

    tib:video\/16453?t=smpte-25:0:05:00:22,0:05:03:00> dcterms:isPartOf tib:video\/16453 .

    tib:asr\/16453_13753838_7522 oa:hasTarget    tib:video\/16453?t=smpte-25:0:05:00:22,0:05:03:00 ;
    oa:annotatedBy  tib:annotator\/ASR-1.0.0 ;
    rdf:type        oa:Annotation ;
    oa:hasBody      tib:asr\/16453_13753838_7522?char=0,5617 .

    tib:asr\/16453_13753838_7522?char=0,5617  rdf:type      nif:Context ;
    rdf:type      nif:RFC5147String ;
    nif:isString  "... five sets ... " .
  
Beispiel 4: OCR-Ergebnisse
Bild: Beispiel 4

    tib:video\/16453?t=smpte-25:0:28:17:11&xywh=368,316,292,15 dcterms:isPartOf tib:video\/16453 .

    tib:ocr\/16453_42436_42436_x368y316h15w292   oa:hasTarget    tib:video\/16453?t=smpte-25:0:28:17:11&xywh=368,316,292,15 ;
    oa:hasBody      tib:ocr\/16453_42436_42436_x368y316h15w292?char=0,7 ;
    oa:annotatedBy  tib:annotator\/OCR-1.0.0 ;
    rdf:type        oa:Annotation .

    tib:ocr\/16453_42436_42436_x368y316h15w292?char=0,7 rdf:type nif:Context ;
    rdf:type nif:RFC5147String ;
    nif:isString “optimal” .
  
Beispiel 5: VCD-Ergebnisse
Bild: Beispiel 5

    tib:video\/16453?t=smpte-25:0:01:02:07 dcterms:isPartOf tib:video\/16453 .

    tib:vcd\/16453_1347007_1557  oa:hasTarget   tib:video\/16453?t=smpte-25:0:01:02:07 ;
    oa:hasBody     tib:visualconcepts/Lecture ;
    oa:annotatedBy tib:annotator\/VCD-1.0.0 ;
    oa:motivatedBy oa:tagging ;
    rdf:type       oa:Annotation .

    tib:visualconcepts\/Lecture  rdf:type oa:SemanticTag .
  
Beispiel 6: Named Entity Linking der OCR/ASR
Image: Beispiel 6

    tib:video\/16453?t=smpte-25:0:05:00:22,0:05:03:00 dcterms:isPartOf tib:video\/16453 .

    tib:asr\/16453_13753838_7522 oa:hasTarget   tib:video\/16453?t=smpte-25:0:05:00:22,0:05:03:00 ;
    oa:annotatedBy tib:annotator\/ASR-1.0.0 ;
    rdf:type       oa:Annotation ;
    oa:hasBody     tib:asr\/16453_13753838_7522#char=0,5617 .

    tib:asr\/16453_13753838_7522?char=0,5617 rdf:type nif:Context ;
    rdf:type nif:RFC5147String ;
    nif:isString "... five sets ..." .

    tib:asr\/16453_13753838_7522?char=4743,4747 nif:referenceContext tib:asr\/16453_13753838_7522?char=0,5617 ;
    itsrdf:taIdentRef gnd:4038613-2 ;
    itsrdf:taAnnotatorsRef tib:annotator\/NEL-1.0.0 ;
    rdf:type nif:Phrase ;
    rdf:type nif:String ;
    nif:beginIndex "4743" ;
    nif:beginIndex "4747" ;
    nif:anchorOf "sets" .
  

Import der Datensätze in RDF-Datenbank (Triple-Store)

Folgende Tabelle zeigt einige RDF-Datenbanken, die für den Import genutzt werden können.

Virtuoso Opensourcehttp://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/
Sesamehttp://rdf4j.org/
Apache Jena TBDhttps://jena.apache.org/documentation/tdb/
Blazegraphhttps://www.blazegraph.com/

Im Folgenden wird Blazegraph als Beispiel verwendet, um die RDF Daten zu laden und abzufragen.

Zur Installation von Blazegraph laden Sie die Blazegraph jar-Datei herunter. Zum starten von Blazegraph befolgen Sie die Anleitung unter: https://www.blazegraph.com/download/

Sobald Blazegraph gestartet wurde kann die Nutzerschnittstelle im Webbrowser geöffnet werden:
http://localhost:9999/blazegraph/

Laden Sie den Datensatz des TIB AV-Portals aus der obigen Tabelle herunter und entpacken Sie ihn.

Um den Datensatz des TIB AV-Portals in Blazegraph zu importieren, benutzen Sie das Kommando aus dem Blazegraph Screenshot:

  • gehen Sie zum Tab „UPDATE“ in Blazegraph
  • geben Sie die vollständige absolute URL Ihres lokalen entpackten Datensatzes im Eingabefeld ein
  • wählen Sie den Typen: „File Path or URL“ aus dem Auswahlmenü aus
  • drücken Sie den „Update“-Knopf darunter

Das Update sollte nun beginnen („Running updates ...“). Das Update wird wahrscheinlich einige Minuten dauern (ca. 10 bis 30 Minuten, je nach Leistungsfähigkeit Ihres Computers). Wenn das Update erfolgreich ausgeführt wurde, wird dies durch eine Meldung wie „Modified: 10099269 Milliseconds: 1441798“ angezeigt.

Blazegraph Screenshot

Abfragen der Daten mit SPARQL

Wechseln Sie in Blazegraph in den Tab „QUERY“ und geben Sie die unten stehenden Beispielabfragen ein.

Folgende Präfixe müssen in jeder Abfrage verwendet werden:


    PREFIX dcterms: <http://purl.org/dc/terms/>
    PREFIX gnd: <http://d-nb.info/gnd/>
    PREFIX schema: <http://schema.org/>
    PREFIX tib: <http://av.tib.eu/resource/>
    PREFIX itsrdf: <http://www.w3.org/2005/11/its/rdf#>
    PREFIX nif: <http://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#>
    PREFIX oa: <http://www.w3.org/ns/oa#>
    PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
  
Beispiel 1: Zeige das Video mit der ID 16453 zusammen mit all seinen Tripeln.

    SELECT *
      WHERE {
      tib:video\/15293 ?p ?o .
    }
  
Beispiel 2: Zeige alle Videos des Herausgebers 'IWF (Göttingen)'.

    SELECT DISTINCT ?movie
    WHERE {
      ?movie rdf:type schema:Movie .
      ?movie schema:publisher <http://av.tib.eu/resource/IWF_%28G%C3%B6ttingen%29> .
    }
  
Beispiel 3: Zeige alle Videos mit dem Term ‘big data’ in ihrem Titel

    SELECT DISTINCT ?movie ?name
    WHERE {
      ?movie rdf:type schema:Movie .
      ?movie schema:name ?name .
      FILTER REGEX(STR(?name), 'big data', 'i') .
    }
  
Beispiel 4: Wie viele Videos wurden mit einem visuellen Konzept annotiert?

    SELECT (COUNT(DISTINCT ?video) AS ?count)
    WHERE {
      ?annotation oa:annotatedBy tib:annotator\/VCD-1.0.0 .
      ?annotation oa:hasTarget ?videoFragment .
      ?annotation oa:hasBody ?concept .
      ?videoFragment dcterms:isPartOf ?video .
    }
  
Beispiel 5: Zeige alle Videos, in deren ASR Transkripten das Wort ‘sets’ gefunden wurde

    SELECT ?string ?video
    WHERE {
      ?annotation oa:annotatedBy tib:annotator\/ASR-1.0.0 .
      ?annotation oa:hasTarget ?videofragment .
      ?annotation oa:hasBody ?context .
      ?context nif:isString ?string .
      FILTER REGEX(STR(?string), 'sets', 'i') .
      ?videofragment dcterms:isPartOf ?video .
    }
  
Beispiel 6: Zeige alle Videos, die mit der GND-Entität ‘http://d-nb.info/gnd/4298379-4’ annotiert wurden.

    SELECT ?video
    WHERE {
      ?phrase itsrdf:taIdentRef gnd:4298379-4 .
      ?phrase nif:referenceContext ?context .
      ?annotation oa:hasBody ?context .
      ?annotation oa:hasTarget ?videofragment .
      ?videofragment dcterms:isPartOf ?video .
    }
  
Beispiel 7: Für wie viele Videos gibt es OCR-Analyse-Ergebnisse?

    SELECT (COUNT(DISTINCT ?video) AS ?count)
    WHERE {
      ?annotation oa:annotatedBy tib:annotator\/OCR-1.0.0 .
      ?annotation oa:hasTarget ?videofragment .
      ?videofragment dcterms:isPartOf ?video .
    }
  


URI-Dereferenzierung

Das TIB AV-Portal unterstützt die Dereferenzierung der AV-Portal internen URIs im RDF-Export.

Es werden zwei Methoden angeboten, (1) HTTP Accept Header und (2) Dateiendungen.

1 Dereferenzierung via HTTP Accept Header

Die folgenden Content-Types können per HTTP Accept Header direkt angefragt werden:


application/ld+json-> json-ld
application/n-triples-> nt
application/rdf+json-> rdf-json
application/rdf+xml-> xml
application/turtle-> ttl
application/x-turtle-> ttl
text/n3-> ttl
text/plain-> nt
text/rdf+n3-> ttl
text/turtle-> ttl

Z.B. können die RDF Daten für die Ressource 'http://av.tib.eu/resource/video/12284' mit 'curl' abgerufen werden via:


	curl -k -L -H "Accept: application/rdf+xml" 'http://av.tib.eu/resource/video/12284' 

Der Parameter '-k' ermöglicht das Ignorieren der SSL-Zertifikaten.

Der Parameter '-L' ermöglicht das Verfolgen von Redirects (z.B. http -> https).

2 Dereferenzierung via Dateiendung

Die folgenden Dateiendungen können ebenfalls verwendet werden, um RDF Daten abzurufen. Hierbei wird eine 302 Content Negotiation durchgeführt.


.json-> json-ld
.n3-> nt
.nt-> nt
.rdf-> xml
.ttl-> ttl
.xml-> xml
.ntriples-> nt

z.B. via:


curl -k -L 'http://av.tib.eu/resource/video/12284.n3'

Dereferenzierung der URIs via Datenamen funktioniert nicht bei URIs die ein '?' enthalten. In diesen Fällen kann nur die erste Methode vewendet werden?

Der Parameter '-k' ermöglicht das Ignorieren der SSL-Zertifikaten.

Der Parameter '-L' ermöglicht das Verfolgen von Redirects (z.B. http -> https).

Feedback