We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

MetaOpenData

00:00

Formal Metadata

Title
MetaOpenData
Subtitle
Metadaten manuell erzeugen war gestern
Title of Series
Number of Parts
95
Author
License
CC Attribution 3.0 Unported:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Abstract
Der freie und unbeschränkte Zugang zu Daten ist das zentrale Element des Open Data Gedankens. Dieses Ziel ist durch alleinige Bereitstellung von Daten nicht zu erreichen, denn die bereitgestellten Daten müssen für Interessierte Nutzer auch auffindbar sein. Gerade im Kontext des Bundesministeriums für Verkehr und Digitale Infrastruktur ist dies eine zentrale Anforderung in Bezug auf die riesigen Datenschätze des Geschäftsbereiches. Im Rahmen des Modernitätsfonds mFUND untersuchen wir im Projekt "OpenMetaData" die Machbarkeit von Maßnahmen zur Verbesserung
Keywords
12
58
60
71
Thumbnail
22:07
72
77
Thumbnail
20:22
VideodatMetadataGeodesicWeb pageLecture/Conference
Stylus (computing)MetadataMetreMetadata
Stylus (computing)MetadataMetreFeasibility studyInformation technology consultingLecture/ConferenceMeeting/Interview
HTTPFeasibility studyNumberLink (knot theory)Feasibility studyComputer animation
MetadataOutline of industrial organizationMesswerterfassungMetadataArtificial intelligenceWordRoundingFeasibility studyConvex setData acquisitionXMLComputer animation
Form (programming)Moment (mathematics)DatenformatPrototypeProof theory
Point cloudRow (database)
File formatComputer filePoint cloudOnline chatInterface (computing)Similarity (geometry)DatenformatComputer animation
MetadataArtificial intelligenceDatabasePoint cloudXML
MetadataGeodesicMetadataRow (database)DiagramPoint cloudDatenformatDirection (geometry)
GeodesicRow (database)Service (economics)DiagramMetadataSpatial data infrastructureVideodatMikroarchitektur
GeodesicDatenformat
DatenaufbereitungAlgorithmRow (database)Kopplung <Physik>Spatial data infrastructureAlgorithmKopplung <Physik>GeodesicRow (database)MetadataPoint cloudArtificial neural networkWeb portalData acquisitionComputer animation
MetadataOutline of industrial organizationReal-time operating systemKopplung <Physik>MetadataMetreAlgorithmGenerating functionComputer animation
Data storage deviceSolution setMetadataData storage deviceWeb portalMetadataData typeLösung <Mathematik>Row (database)Diagram
AutomationMetadataMetadataAutomatonGenerating functionComputer animation
Computer animation
Row (database)PDF <Dateiformat>FRAMEWORK <Programm>MetadataData structureAutomatonHacker (term)Raw image formatSearch engine (computing)Point cloudLecture/Conference
Transcript: German(auto-generated)
Herzlich willkommen zum zweiten Vortrag zum Thema Open Data. Ich weiß nicht, ob es Ihnen auch schon mal so gegangen ist. Sie kriegen ein neues Projekt auf den Tisch und Sie wissen, da gibt es freie Geodaten, aber
ich weiß nicht mehr, wo diese liegen. Auf welcher Webseite, keine Ahnung. Ich fange an zu suchen und irgendwann beiße ich in die Tischkante, weil ich finde sie einfach nicht. Wenn wir über Open Data reden, müssen wir auch über Metadaten reden. Das sind die Daten, die die Geodaten beschreiben und nur über Metadaten kann man letztendlich auch die Geodaten finden. Und wie man
das beides zusammenkriegt und etwas bauen kann, wo man dann auch letztendlich die Geodaten findet, das wird uns Sebastian Görke erzählen. Genau, wunderbar, bin schon auf Sendung. Ja, auch von meiner Seite auch noch. Guten Tag zusammen zu dieser schon fortgerückten Stunde. Ich habe heute
die Ehre Ihnen das Projekt Meta Open Data vorstellen zu dürfen. Mit dem schönen Untertitel Metadaten manuell erzeugen war gestern. Das ist natürlich explizit provokant gewählt. Aber bevor ich jetzt in den Vortrag
einsteige, möchte ich mich gerne auch noch selber vorstellen. Also mein Name ist Sebastian Görke, ich arbeite als Technologieberater bei der Firma Sopra Stereo Consulting. Das ist ein französischer Konzern und ich arbeite für die deutsche Niederlassung quasi. In Deutschland beschäftigen wir uns
im Wesentlichen mit Management und IT-Beratung. Und der öffentliche Sektor ist da so einer unserer wichtigsten Geschäftsbereiche. Ja, wir haben gemeinsam mit der Firma Mundialis, da hat der Markus Netheler ja eben
bereits einen Vortrag gehalten von dieser Firma, deswegen stelle ich die jetzt nicht groß vor. Ich denke, die führenden Personen sind auch hinreichend bekannt. Wir haben uns mit der Mundialis zusammengesetzt und überlegt, naja, wir müssten doch eigentlich mal irgendwie den Leuten helfen, ihre Daten oder Daten besser zu finden. Da hat sich
jetzt der Fördertopf M-Fund angeboten. Ist der hier bekannt? Also wer kennt den M-Fund vom Bundesverkehrsministerium? Gar nicht so sehr. Vielleicht verliere ich einfach mal noch zwei Sätze zu diesem M-Fund. Also der M-Fund ist ein Fördertopf vom Bundesverkehrsministerium. Den
haben die, ich glaube vor anderthalb Jahren aufgesetzt oder vor zwei Jahren aufgesetzt. Da sind 150 Millionen Euro drin. Es gibt zwei Förderlinien. In der einen kann man so Machbarkeitsstudien machen. Das hier ist jetzt so ein Projekt aus dieser Förderlinie eins. Man kann aber auch große Entwicklungsprojekte machen. Da gibt es dann auch bis zu drei
Millionen Fördergelder. Also für, das muss man natürlich dazu sagen, für datengetriebene Projekte, insbesondere im Open-Data-Umfeld und wenn man sich nochmal im Speziellen mit Daten aus dem Resort des Verkehrsministeriums beschäftigt. Was natürlich sehr schön ist, denn das Verkehrsministerium hat ja alle möglichen Verkehrsbundesämter
unter sich oder auch den DWD. Also da kann man glaube ich gerade aus unserer Community hier ziemlich viel draus schöpfen. Also sollte man sich anschauen. So, aber jetzt hier zum Thema. Meta-Open-Data ist der Titel, schon gesagt. Ein paar Zahlen, Daten und Fakten zu
unserem Projekt, bevor ich dann inhaltlich werde. Also wir machen hier eine Machbarkeitsstudie im Rahmen von diesem Modernitätsfonds Amfund, vom BMVI habe ich gerade gesagt. Das Fördervolumen liegt bei 100.000 Euro. Wir machen das Ganze in einem Verbund. Unser
Partner ist die Mundialis und wir haben uns auch schon ein schönes Projektlogo überlegt und weitere Infos rund um das Projekt. Das Projekt gibt es auch auf der Internetseite vom Amfund. Ich habe den Link jetzt einfach mal unten dran gepackt. Ich denke, die Folien werden ja auch bereitgestellt, dann kann sich da jeder auch nochmal tiefgreifender informieren. Sind übrigens auch
ganz andere spannende Open-Data-Projekte, die man sich da so anschauen kann. So, werden wir inhaltlich. Was ist eigentlich unser Projektziel? Das habe ich ebenso schön eingeleitet. Mit Metadaten manuell erfassen war gestern.
Und das spiegelt sich auch ein Stück weit natürlich hier auch in unseren möglichen Projektergebnissen wieder. Zum einen sehen wir, dass Metadaten zukünftig automatisiert erzeugt werden, als ein wesentlicher Knackpunkt. Dazu gehört aber
auch, dass wir uns überlegt haben, naja, KI und da auch im politischen Deep Learning. Wem ist Deep Learning hier ein Begriff grundsätzlich? Es sind immerhin schon mal ein paar, sage ich nachher auch noch ein paar Worte zu. Ja, dass wir eben solche Methoden hier durchaus dafür einsetzen können, um Metadaten automatisiert zu erzeugen und
eben die Pflege von Metadaten zu vereinfachen. Ein ganz wesentlicher Punkt, den wir auch wirklich als wichtiges Ziel sehen, ist, dass wir insbesondere eben durch den Einsatz von Künstlicher Intelligenz die Auffindbarkeit
von Daten verbessern können. Dabei wollen wir natürlich auch individuelle Suchkontexte berücksichtigt wissen. Wenn man sich nämlich beispielsweise mal anschaut, okay, ich gehe jetzt mal auf geoportal.de und suche mir da mal was, dann komme ich schnell an die
Grenzen des Möglichen, denn das, was ich da finden kann, ist immer nur so gut, wie die Metadaten befüllt sind und was die Metadaten eben zu den Daten sagen. Wenn mich halt etwas interessiert, was unter bestimmten Voraussetzungen in meinem Suchkontext jetzt nicht berücksichtigt wurde, habe ich da eben schon ein Problem. Ja, oder das letzte mögliche Ergebnis
unseres unserer Machbarkeitsstudie ist dann eben, dass die manuelle Metadatenerfassung überflüssig wird. Jetzt möchte ich mal die Runde fragen, wer hat denn schon mal manuell mit auch tool-gestützt Metadaten
erfassen müssen dürfen? Sind schon einige. Und wem hat das Spaß gemacht? So, also ich denke, da packen wir gerade ein ganz essentielles Problem auch an. Nichts oder gerade auch, weil Metadatenpflege
und Erfassung auch tierisch aufwendig ist und sein kann. Und ich denke, es ist da auch wichtig, hier ja Zeit und Geld sparen zu können. Hier, ich hoffe, das kann man von der Größe lesen, habe ich jetzt
einmal zusammengestellt, wie wir da vorgehen wollen. Also wir fangen an ganz links mit einer Typisierung von Daten. Wir müssen nämlich wissen, okay, was gibt es eigentlich so für Daten in der Open-Data-Welt oder in der Geo-Welt? Und wie sehen denn Metadatenformate dazu aus? Danach
wollen wir uns Lösungsansätze überlegen, wie wir im Prinzip, ja, die Projektziele, die ich gerade eben ausgeführt habe, erreichen können. Anschließend geht es daran, wenn wir konzeptionell
erst mal so weit sind, geht es dann ans Praktische, dass wir eben uns das Thema Deep Learning tiefer ansehen und eben Daten entsprechend aufbereiten, damit ich da auch die KI trainieren kann. Kurz bevor wir dann zum Projektende kommen, wollen wir
das Ganze dann nochmal mit einem Prototypen umsetzen, also einem Proof of Concept. Und das ist immer am Ende von Forschungsprojekten so, man muss die Ergebnisse auch evaluieren und schauen, ob man denn auch sein Ziel erreicht hat. Genau. Der Vortrag hier wird sich
tatsächlich nur mit den ersten drei Entwicklungsstufen unseres Projektes, nenne ich es mal, beschäftigen, denn wir haben tatsächlich im Dezember erst angefangen und sind im Moment so zwischen Stufe 1, also Datentypisierung, und Stufe 2 der Ausarbeitung von Lösungsansätzen
im Projekt Fortschritt. So, zur Datentypisierung. Ja, was schauen wir uns jetzt eigentlich genau an, an Daten und warum gucken wir uns gerade diese Daten an? Das ist jetzt eine relativ knappe Folie, kann ich auch begründen. Wir
machen ein Förderprojekt mit Forschungsgeldern oder Fördergeldern vom Verkehrsministerium, also schauen wir uns natürlich auch die Daten an, die dieses Ministerium entsprechend bereitstellt. Das hat einen ganz pragmatischen Grund, dass es wahrscheinlich einfacher dann auch ein Projekt machen zu dürfen, wenn man sich mit dem beschäftigt, was auch
das entsprechende Ministerium bewegt. Daher schauen wir uns an das Datenportal des BMVI, das ist die M-Cloud. Wer hat von der M-Cloud schon mal was gehört? Es sind auch ein paar. Die M-Cloud ist im Prinzip sowas wie das Datenportal des BMVI. Da sind
aktuell knapp 650 Datensätze drin. Das ist jetzt noch nicht so ultraumfangreich, das wird aber noch in der kommenden Zeit wachsen. Ja, darüber hinaus schauen wir uns natürlich auch die Kubernetes-Daten an. Das wird eher das Feld sein, mit dem sich dann die Mundiales in unserem Projekt beschäftigen darf. Kenne ich mich jetzt
persönlich auch nicht so in der Tiefe aus, aber diese Kubernetes-Daten betrifft das Metadatenproblem grundsätzlich auch genauso. Wir haben natürlich schon erste Ergebnisse aus der Datentypisierung mitgebracht. Zunächst
einmal, das ist so das, was man in der M-Cloud findet und das Spektrum von Datenformaten, mit dem wir uns jetzt im ersten Schritt auseinandergesetzt haben, was dann noch ein Stück weit fehlt, sind die Kubernetes-Daten. Aber das ist jetzt im Wesentlichen das, was man in der M-Cloud findet an Formaten. Da ist XML dabei, also auch GML
beispielsweise. Da sind Shape-Dateien, CSV-Dateien, verschiedene JSON-Schnittstellen und GeoJSON-Schnittstellen. Es gibt auch GeoTIFS und weitere, es gibt auch Textformate und ja auch weitere solcher Raster-ähnlichen Formate, sage ich jetzt mal. Ja und wir haben jetzt
tatsächlich auch auf der Basis dann erste Ergebnisse und zwar haben wir uns natürlich mit der Frage beschäftigt, wie qualitativ hochwertig ist denn das, was da in der M-Cloud an Daten drin ist und können wir denn damit nachher,
komme ich nachher drauf, mit unseren Ideen rund um künstliche Intelligenz und Deep Learning überhaupt arbeiten. Das ist jetzt ein wichtiger Befund, dass die Daten, die in der M-Cloud drin sind, ja ungefähr zu 50% mit Metadaten verlinkt sind. Das ist natürlich sehr
niederschmetternd, denn das bedeutet, dass man entweder für die anderen knapp 50% die Metadaten irgendwie händisch dazuordnen muss oder die fallen eben als Datenbasis weg. Das Spiel geht noch weiter. Datenvielfalt.
Man kann ja sehen, im Wesentlichen haben wir hier Geodatenformate jeglicher Couleur, die halt in der M-Cloud drin sind. Hier haben wir jetzt in dieser Grafik oder in dem Diagramm nur berücksichtigt die, die in der Folie zuvor mit Ja beantwortet wurden.
Da sehen wir, außer CSV haben wir eigentlich nur Geodatenformate, die überhaupt irgendwie Metadaten haben, also wo ich auch auf Metadatensätze zugreifen kann. Das Thema Datenvielfalt beantwortet sich damit in der Richtung,
dass natürlich das sehr schade ist, dass außer den Geodaten im Prinzip kaum Datensätze in der M-Cloud Metadaten besitzen oder zumindest verlinkte Metadaten besitzen. Dann gibt es die Frage Datenökosystem. Wenn wir jetzt an Geodaten denken, an
Geodateninfrastrukturen, dann haben wir es ja immer so, dass wir von Dienstearchitekturen sprechen, wo Dienste liegen, die Metadaten besitzen, die wiederum auch Datensätze beschreiben und das ist alles durchaus so vorgesehen, dass das miteinander verlinkt ist und nachher ein komplettes Ökosystem
von Geodaten darstellen soll. Was wir jetzt hier sehen in dem Diagramm ist tatsächlich die Verlinkung von, also die Links auf Datensätze in den Metadatensätzen, die referenziert wurden. Also sprich,
das geht jetzt hier noch einen Schritt weiter. Die Metadatensätze, die wir gerade eben als Links hatten, linken selber zurück auf ihre Daten und das sind eben knapp 100 und im Wesentlichen bei Inspire und bei, wir haben es jetzt mal sonstige Geodaten genannt, das ist halt ein bunter Zu
von verschiedenen Geodatenformaten. Da sieht man schon, dass wenn man diese Linked-Data-Geschichte als Qualitätsmerkmal nehmen möchte für Open Data, dass wir da gerade hinsichtlich der mCloud ein Problem haben. Warum das ein Problem ist,
da komme ich jetzt gleich drauf. Ich möchte jetzt erstmal noch einen kleinen Exkurs machen, damit man auch genauer versteht, warum das eigentlich ein Problem ist. Ich komme jetzt zu unserem Deep Learning Thema. Und hier steht die Frage, wie können Deep Learning Methoden von Vorteil sein, hier für
unser Projekt. Wir haben die Ausgangslage, dass es bereits große Infrastrukturen mit Metadaten Kopplungen gibt. Das haben wir gerade gesehen. Das erste Beispiel, die mCloud, da ist es jetzt in weiten Teilen eben leider nicht so. Aber Inspire ist ja beispielsweise auch mehr als ein Teil der mCloud, sondern Inspire ist ja auch
europaweit und da wird es durchaus mehr solcher Paare geben. Bei den Wetterdaten vom DVD haben wir zum Beispiel auch den Fall so gelegt, dass dort Metadaten verlinkt sind zu den entsprechenden Daten. Das
Gleiche gilt auch im Prinzip für die GDI.de, denn die macht ja im Wesentlichen auch nichts anderes als Inspire umzusetzen plus X. Aber wir wollen ja unser Projekt auch etwas breiter aufstellen und Open Data als Gesamtes sehen. Deswegen steht
jetzt zum Beispiel auch das GovData Portal mit dabei. Das ist ja das Open Government Data Portal des Bundesinnenministeriums und da sind ja noch mal viel mehr andere Daten drin als nur Geodaten. So, Deep Learning, das Stichwort. Deep
Learning ist im Prinzip eine spezielle Methode aus der KI. Da geht es darum, ja, neuronale Netze aufzubauen und denen was beizubringen. Da füttert man Daten rein und aus den Daten kann
man eben, wenn man das geschickt aufbaut, das gewünschte Verhalten ableiten. Jetzt haben wir daraus die Idee entwickelt, einen solchen Algorithmus aufzubauen, in dem wir Daten Metadatenpaare da reinfüttern und das System eben lernt, okay, wenn ein Datensatz so und so strukturiert ist, dann muss der
Metadatensatz ja so und so aussehen. Das ist im Prinzip die Idee hinter unserem Projekt, dass wir eben über diese KI-Methoden die Metadatenerfassung erleichtern. Im Ergebnis kann das so aussehen, dass wir dann eine Lösung haben, die selbstständig solche
Metadaten-Templates, da gibt es ja verschiedene Metadaten-Standards, automatisch befüllt werden können. So, jetzt zurück zu meinen geschilderten Ergebnissen. Die Metadaten-Kopplung ist leider selten vollständig, wenn wir gerade die mCloud betrachten. Und Deep
Learning, habe ich gerade erklärt, braucht große Datenmengen, inklusive eben genau dieser Verlinkungen, wenn wir es so aufbauen wollen, wie wir uns das vorstellen. Das bedeutet jetzt für unser Projekt, dass wir weitere Datenquellen auswerten müssen, damit wir eine KI überhaupt so befüllen können, wie wir uns das vorstellen. So, das sind jetzt
die drei Varianten für unsere Lösungsansätze. Einmal eine Template-basierte Metadaten- Erzeugung und Pflege. Dann die Variante, wir binden Deep Learning Algorithm genau in diesem Konzept mit ein. Und die Michform von beiden. Wahrscheinlich wird es auch auf diese Michform
hinauslaufen, denn bestimmte Metadaten-Bereiche, wie zum Beispiel Kontaktdaten, wird man irgendwie vorbefüllen wollen. Jetzt habe ich noch eine kleine, ich hoffe, man kann das erkennen, dass da verschiedene Bereiche sind. So, eine ganz grobe Skizze. Ich habe eben gesagt, wir sind gerade zwischen Datentypisierung und
Lösungskonzeption. Wir stellen uns vor, dass wir nachher ein Portal haben. Das sehen wir im oberen Bereich, wo es eine Deep Learning Komponente gibt und eine Suchkomponente. Der Nutzer greift auf die Suchkomponente zu. Die Deep Learning Komponente besitzt schon Kenntnisse darüber, wie Metadaten zu bestimmten Datentypen aussehen und lernt natürlich weiter dazu, wenn
Datenspeicher bei datenhaltenden Stellen weiter erfüllt werden. Die stehen natürlich auch immer im Austausch mit den Metadatenspeichern von allen möglichen Portalen. Und so stellen wir uns das grob vor. Meine letzte Folie. Ja, welche Ergebnisse können wir liefern? Wir hoffen die Antwort auf die Frage, ob die
Deep Learning Mechanismen geeignet sind, die Aufwände bei der Metadaten-Bearbeitung zu reduzieren, mit Ja beantworten zu können. Wir hoffen, einen Lösungsansatz bieten zu können, der die Metadatenpflege automatisieren kann. Und wir möchten die
Grundlage hier aufbauen, um eine vollumfängliche Lösung für die automatische Metadatenerzeugung und Pflege legen. So, dann wäre ich jetzt im Prinzip auch schon durch und stehe jetzt noch für Fragen und insbesondere auch die Diskussion bereit, denn wir sind auch relativ früh in dem
Projekt und sind da sehr offen und wollen auch diskutieren, ob das, was wir da vorhaben, auch Sinn macht und eine gute Idee ist. Vielen Dank. Ja, vielen Dank, Sebastian. Wir haben mal wieder gelernt,
jede Geodatensuchmaschine ist nur so gut wie ihre Metadaten, die dahinter liegen. Ich denke mal, es wird einige Fragen geben. Wer möchte denn? Danke für den Vortrag. Ich
würde gerne fragen, um welche Art von Metadaten es geht. Also was soll ergänzt werden von der künstlichen Intelligenz? Ja, also wir haben in der M-Cloud, die wir jetzt betrachtet haben, im wesentlichen ISO Metadaten, also XML-Format,
geodatenbeschreibend, aber auch ganz viel PDF. Denn zum Beispiel der DVD hat da ein Format, das ist ein PDF, und damit beschreiben die alle Metadaten über ihre Datensätze.
Weißt du, mit welchem Verfahren ihr die KI trainiert? Weil gerade mit so einen spärlich besetzten Datensetzen gibt es ja da verschiedene Verfahren, wie man das auch effizient gestalten kann. Ja, also erstmal haben wir das Ziel, dass wir natürlich
noch die Datengrundlage erweitern. Sprich, wir wollen uns dann noch die GDI.de zum Beispiel näher betrachten, ob das Sinn macht, da automatisiert das rauszuziehen, was wir jetzt aus der M-Cloud rausgezogen haben. Also unser Ziel ist erstmal die Datengrundlage zu erweitern. Danach wollen wir uns verschiedene Frameworks anschauen. Beispielsweise AWS hat da jetzt den SageMaker.
Das sind so Geschichten, wo wir uns dann draufstürzen wollen, im Prinzip. Ist doch schon spät.
Ja, noch ein kleiner Hinweis, wenn keine Fragen mehr sind, wenn du mal wieder im Ministerium bist. Ich glaube, da sind wir uns alle einig. Warum muss eigentlich jedes Ministerium, jede Bundesbehörde ihre eigene Datenstruktur haben? Ja, kann man sogar beantworten.
Also ich kann sogar eine Antwort darauf geben. Weil die Ressorts natürlich eigentlich alle, also die haben sogar teilweise Kooperationsverbote. Das heißt, die müssen auch eine eigene IT haben und alles selber aufbauen. Das ist tatsächlich so auch vom Gesetzgeber grundsätzlich gewollt. Ist leider so, ist blöd, aber die kooperieren
jetzt zum Glück lang. Wer hat das gewählt? Alles klar. Vielen Dank, Sebastian. Ja, gerne.