MetaOpenData
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Subtitle |
| |
Title of Series | ||
Number of Parts | 95 | |
Author | ||
License | CC Attribution 3.0 Unported: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/36207 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
1
6
10
11
12
14
15
16
23
28
37
39
41
50
53
54
58
60
62
68
70
71
72
74
76
77
78
79
82
83
86
90
95
00:00
VideodatMetadataGeodesicWeb pageLecture/Conference
00:56
Stylus (computing)MetadataMetreMetadata
01:29
Stylus (computing)MetadataMetreFeasibility studyInformation technology consultingLecture/ConferenceMeeting/Interview
03:38
HTTPFeasibility studyNumberLink (knot theory)Feasibility studyComputer animation
04:32
MetadataOutline of industrial organizationMesswerterfassungMetadataArtificial intelligenceWordRoundingFeasibility studyConvex setData acquisitionXMLComputer animation
07:15
Form (programming)Moment (mathematics)DatenformatPrototypeProof theory
09:06
Point cloudRow (database)
10:40
File formatComputer filePoint cloudOnline chatInterface (computing)Similarity (geometry)DatenformatComputer animation
11:25
MetadataArtificial intelligenceDatabasePoint cloudXML
12:18
MetadataGeodesicMetadataRow (database)DiagramPoint cloudDatenformatDirection (geometry)
13:13
GeodesicRow (database)Service (economics)DiagramMetadataSpatial data infrastructureVideodatMikroarchitektur
14:07
GeodesicDatenformat
14:49
DatenaufbereitungAlgorithmRow (database)Kopplung <Physik>Spatial data infrastructureAlgorithmKopplung <Physik>GeodesicRow (database)MetadataPoint cloudArtificial neural networkWeb portalData acquisitionComputer animation
17:27
MetadataOutline of industrial organizationReal-time operating systemKopplung <Physik>MetadataMetreAlgorithmGenerating functionComputer animation
18:27
Data storage deviceSolution setMetadataData storage deviceWeb portalMetadataData typeLösung <Mathematik>Row (database)Diagram
19:13
AutomationMetadataMetadataAutomatonGenerating functionComputer animation
19:53
Computer animation
20:16
Row (database)PDF <Dateiformat>FRAMEWORK <Programm>MetadataData structureAutomatonHacker (term)Raw image formatSearch engine (computing)Point cloudLecture/Conference
Transcript: German(auto-generated)
00:09
Herzlich willkommen zum zweiten Vortrag zum Thema Open Data. Ich weiß nicht, ob es Ihnen auch schon mal so gegangen ist. Sie kriegen ein neues Projekt auf den Tisch und Sie wissen, da gibt es freie Geodaten, aber
00:22
ich weiß nicht mehr, wo diese liegen. Auf welcher Webseite, keine Ahnung. Ich fange an zu suchen und irgendwann beiße ich in die Tischkante, weil ich finde sie einfach nicht. Wenn wir über Open Data reden, müssen wir auch über Metadaten reden. Das sind die Daten, die die Geodaten beschreiben und nur über Metadaten kann man letztendlich auch die Geodaten finden. Und wie man
00:44
das beides zusammenkriegt und etwas bauen kann, wo man dann auch letztendlich die Geodaten findet, das wird uns Sebastian Görke erzählen. Genau, wunderbar, bin schon auf Sendung. Ja, auch von meiner Seite auch noch. Guten Tag zusammen zu dieser schon fortgerückten Stunde. Ich habe heute
01:06
die Ehre Ihnen das Projekt Meta Open Data vorstellen zu dürfen. Mit dem schönen Untertitel Metadaten manuell erzeugen war gestern. Das ist natürlich explizit provokant gewählt. Aber bevor ich jetzt in den Vortrag
01:23
einsteige, möchte ich mich gerne auch noch selber vorstellen. Also mein Name ist Sebastian Görke, ich arbeite als Technologieberater bei der Firma Sopra Stereo Consulting. Das ist ein französischer Konzern und ich arbeite für die deutsche Niederlassung quasi. In Deutschland beschäftigen wir uns
01:42
im Wesentlichen mit Management und IT-Beratung. Und der öffentliche Sektor ist da so einer unserer wichtigsten Geschäftsbereiche. Ja, wir haben gemeinsam mit der Firma Mundialis, da hat der Markus Netheler ja eben
02:02
bereits einen Vortrag gehalten von dieser Firma, deswegen stelle ich die jetzt nicht groß vor. Ich denke, die führenden Personen sind auch hinreichend bekannt. Wir haben uns mit der Mundialis zusammengesetzt und überlegt, naja, wir müssten doch eigentlich mal irgendwie den Leuten helfen, ihre Daten oder Daten besser zu finden. Da hat sich
02:22
jetzt der Fördertopf M-Fund angeboten. Ist der hier bekannt? Also wer kennt den M-Fund vom Bundesverkehrsministerium? Gar nicht so sehr. Vielleicht verliere ich einfach mal noch zwei Sätze zu diesem M-Fund. Also der M-Fund ist ein Fördertopf vom Bundesverkehrsministerium. Den
02:42
haben die, ich glaube vor anderthalb Jahren aufgesetzt oder vor zwei Jahren aufgesetzt. Da sind 150 Millionen Euro drin. Es gibt zwei Förderlinien. In der einen kann man so Machbarkeitsstudien machen. Das hier ist jetzt so ein Projekt aus dieser Förderlinie eins. Man kann aber auch große Entwicklungsprojekte machen. Da gibt es dann auch bis zu drei
03:02
Millionen Fördergelder. Also für, das muss man natürlich dazu sagen, für datengetriebene Projekte, insbesondere im Open-Data-Umfeld und wenn man sich nochmal im Speziellen mit Daten aus dem Resort des Verkehrsministeriums beschäftigt. Was natürlich sehr schön ist, denn das Verkehrsministerium hat ja alle möglichen Verkehrsbundesämter
03:22
unter sich oder auch den DWD. Also da kann man glaube ich gerade aus unserer Community hier ziemlich viel draus schöpfen. Also sollte man sich anschauen. So, aber jetzt hier zum Thema. Meta-Open-Data ist der Titel, schon gesagt. Ein paar Zahlen, Daten und Fakten zu
03:42
unserem Projekt, bevor ich dann inhaltlich werde. Also wir machen hier eine Machbarkeitsstudie im Rahmen von diesem Modernitätsfonds Amfund, vom BMVI habe ich gerade gesagt. Das Fördervolumen liegt bei 100.000 Euro. Wir machen das Ganze in einem Verbund. Unser
04:00
Partner ist die Mundialis und wir haben uns auch schon ein schönes Projektlogo überlegt und weitere Infos rund um das Projekt. Das Projekt gibt es auch auf der Internetseite vom Amfund. Ich habe den Link jetzt einfach mal unten dran gepackt. Ich denke, die Folien werden ja auch bereitgestellt, dann kann sich da jeder auch nochmal tiefgreifender informieren. Sind übrigens auch
04:23
ganz andere spannende Open-Data-Projekte, die man sich da so anschauen kann. So, werden wir inhaltlich. Was ist eigentlich unser Projektziel? Das habe ich ebenso schön eingeleitet. Mit Metadaten manuell erfassen war gestern.
04:44
Und das spiegelt sich auch ein Stück weit natürlich hier auch in unseren möglichen Projektergebnissen wieder. Zum einen sehen wir, dass Metadaten zukünftig automatisiert erzeugt werden, als ein wesentlicher Knackpunkt. Dazu gehört aber
05:00
auch, dass wir uns überlegt haben, naja, KI und da auch im politischen Deep Learning. Wem ist Deep Learning hier ein Begriff grundsätzlich? Es sind immerhin schon mal ein paar, sage ich nachher auch noch ein paar Worte zu. Ja, dass wir eben solche Methoden hier durchaus dafür einsetzen können, um Metadaten automatisiert zu erzeugen und
05:25
eben die Pflege von Metadaten zu vereinfachen. Ein ganz wesentlicher Punkt, den wir auch wirklich als wichtiges Ziel sehen, ist, dass wir insbesondere eben durch den Einsatz von Künstlicher Intelligenz die Auffindbarkeit
05:42
von Daten verbessern können. Dabei wollen wir natürlich auch individuelle Suchkontexte berücksichtigt wissen. Wenn man sich nämlich beispielsweise mal anschaut, okay, ich gehe jetzt mal auf geoportal.de und suche mir da mal was, dann komme ich schnell an die
06:01
Grenzen des Möglichen, denn das, was ich da finden kann, ist immer nur so gut, wie die Metadaten befüllt sind und was die Metadaten eben zu den Daten sagen. Wenn mich halt etwas interessiert, was unter bestimmten Voraussetzungen in meinem Suchkontext jetzt nicht berücksichtigt wurde, habe ich da eben schon ein Problem. Ja, oder das letzte mögliche Ergebnis
06:25
unseres unserer Machbarkeitsstudie ist dann eben, dass die manuelle Metadatenerfassung überflüssig wird. Jetzt möchte ich mal die Runde fragen, wer hat denn schon mal manuell mit auch tool-gestützt Metadaten
06:40
erfassen müssen dürfen? Sind schon einige. Und wem hat das Spaß gemacht? So, also ich denke, da packen wir gerade ein ganz essentielles Problem auch an. Nichts oder gerade auch, weil Metadatenpflege
07:01
und Erfassung auch tierisch aufwendig ist und sein kann. Und ich denke, es ist da auch wichtig, hier ja Zeit und Geld sparen zu können. Hier, ich hoffe, das kann man von der Größe lesen, habe ich jetzt
07:20
einmal zusammengestellt, wie wir da vorgehen wollen. Also wir fangen an ganz links mit einer Typisierung von Daten. Wir müssen nämlich wissen, okay, was gibt es eigentlich so für Daten in der Open-Data-Welt oder in der Geo-Welt? Und wie sehen denn Metadatenformate dazu aus? Danach
07:43
wollen wir uns Lösungsansätze überlegen, wie wir im Prinzip, ja, die Projektziele, die ich gerade eben ausgeführt habe, erreichen können. Anschließend geht es daran, wenn wir konzeptionell
08:01
erst mal so weit sind, geht es dann ans Praktische, dass wir eben uns das Thema Deep Learning tiefer ansehen und eben Daten entsprechend aufbereiten, damit ich da auch die KI trainieren kann. Kurz bevor wir dann zum Projektende kommen, wollen wir
08:21
das Ganze dann nochmal mit einem Prototypen umsetzen, also einem Proof of Concept. Und das ist immer am Ende von Forschungsprojekten so, man muss die Ergebnisse auch evaluieren und schauen, ob man denn auch sein Ziel erreicht hat. Genau. Der Vortrag hier wird sich
08:40
tatsächlich nur mit den ersten drei Entwicklungsstufen unseres Projektes, nenne ich es mal, beschäftigen, denn wir haben tatsächlich im Dezember erst angefangen und sind im Moment so zwischen Stufe 1, also Datentypisierung, und Stufe 2 der Ausarbeitung von Lösungsansätzen
09:01
im Projekt Fortschritt. So, zur Datentypisierung. Ja, was schauen wir uns jetzt eigentlich genau an, an Daten und warum gucken wir uns gerade diese Daten an? Das ist jetzt eine relativ knappe Folie, kann ich auch begründen. Wir
09:21
machen ein Förderprojekt mit Forschungsgeldern oder Fördergeldern vom Verkehrsministerium, also schauen wir uns natürlich auch die Daten an, die dieses Ministerium entsprechend bereitstellt. Das hat einen ganz pragmatischen Grund, dass es wahrscheinlich einfacher dann auch ein Projekt machen zu dürfen, wenn man sich mit dem beschäftigt, was auch
09:42
das entsprechende Ministerium bewegt. Daher schauen wir uns an das Datenportal des BMVI, das ist die M-Cloud. Wer hat von der M-Cloud schon mal was gehört? Es sind auch ein paar. Die M-Cloud ist im Prinzip sowas wie das Datenportal des BMVI. Da sind
10:01
aktuell knapp 650 Datensätze drin. Das ist jetzt noch nicht so ultraumfangreich, das wird aber noch in der kommenden Zeit wachsen. Ja, darüber hinaus schauen wir uns natürlich auch die Kubernetes-Daten an. Das wird eher das Feld sein, mit dem sich dann die Mundiales in unserem Projekt beschäftigen darf. Kenne ich mich jetzt
10:22
persönlich auch nicht so in der Tiefe aus, aber diese Kubernetes-Daten betrifft das Metadatenproblem grundsätzlich auch genauso. Wir haben natürlich schon erste Ergebnisse aus der Datentypisierung mitgebracht. Zunächst
10:42
einmal, das ist so das, was man in der M-Cloud findet und das Spektrum von Datenformaten, mit dem wir uns jetzt im ersten Schritt auseinandergesetzt haben, was dann noch ein Stück weit fehlt, sind die Kubernetes-Daten. Aber das ist jetzt im Wesentlichen das, was man in der M-Cloud findet an Formaten. Da ist XML dabei, also auch GML
11:01
beispielsweise. Da sind Shape-Dateien, CSV-Dateien, verschiedene JSON-Schnittstellen und GeoJSON-Schnittstellen. Es gibt auch GeoTIFS und weitere, es gibt auch Textformate und ja auch weitere solcher Raster-ähnlichen Formate, sage ich jetzt mal. Ja und wir haben jetzt
11:23
tatsächlich auch auf der Basis dann erste Ergebnisse und zwar haben wir uns natürlich mit der Frage beschäftigt, wie qualitativ hochwertig ist denn das, was da in der M-Cloud an Daten drin ist und können wir denn damit nachher,
11:41
komme ich nachher drauf, mit unseren Ideen rund um künstliche Intelligenz und Deep Learning überhaupt arbeiten. Das ist jetzt ein wichtiger Befund, dass die Daten, die in der M-Cloud drin sind, ja ungefähr zu 50% mit Metadaten verlinkt sind. Das ist natürlich sehr
12:03
niederschmetternd, denn das bedeutet, dass man entweder für die anderen knapp 50% die Metadaten irgendwie händisch dazuordnen muss oder die fallen eben als Datenbasis weg. Das Spiel geht noch weiter. Datenvielfalt.
12:23
Man kann ja sehen, im Wesentlichen haben wir hier Geodatenformate jeglicher Couleur, die halt in der M-Cloud drin sind. Hier haben wir jetzt in dieser Grafik oder in dem Diagramm nur berücksichtigt die, die in der Folie zuvor mit Ja beantwortet wurden.
12:43
Da sehen wir, außer CSV haben wir eigentlich nur Geodatenformate, die überhaupt irgendwie Metadaten haben, also wo ich auch auf Metadatensätze zugreifen kann. Das Thema Datenvielfalt beantwortet sich damit in der Richtung,
13:01
dass natürlich das sehr schade ist, dass außer den Geodaten im Prinzip kaum Datensätze in der M-Cloud Metadaten besitzen oder zumindest verlinkte Metadaten besitzen. Dann gibt es die Frage Datenökosystem. Wenn wir jetzt an Geodaten denken, an
13:21
Geodateninfrastrukturen, dann haben wir es ja immer so, dass wir von Dienstearchitekturen sprechen, wo Dienste liegen, die Metadaten besitzen, die wiederum auch Datensätze beschreiben und das ist alles durchaus so vorgesehen, dass das miteinander verlinkt ist und nachher ein komplettes Ökosystem
13:41
von Geodaten darstellen soll. Was wir jetzt hier sehen in dem Diagramm ist tatsächlich die Verlinkung von, also die Links auf Datensätze in den Metadatensätzen, die referenziert wurden. Also sprich,
14:02
das geht jetzt hier noch einen Schritt weiter. Die Metadatensätze, die wir gerade eben als Links hatten, linken selber zurück auf ihre Daten und das sind eben knapp 100 und im Wesentlichen bei Inspire und bei, wir haben es jetzt mal sonstige Geodaten genannt, das ist halt ein bunter Zu
14:21
von verschiedenen Geodatenformaten. Da sieht man schon, dass wenn man diese Linked-Data-Geschichte als Qualitätsmerkmal nehmen möchte für Open Data, dass wir da gerade hinsichtlich der mCloud ein Problem haben. Warum das ein Problem ist,
14:41
da komme ich jetzt gleich drauf. Ich möchte jetzt erstmal noch einen kleinen Exkurs machen, damit man auch genauer versteht, warum das eigentlich ein Problem ist. Ich komme jetzt zu unserem Deep Learning Thema. Und hier steht die Frage, wie können Deep Learning Methoden von Vorteil sein, hier für
15:00
unser Projekt. Wir haben die Ausgangslage, dass es bereits große Infrastrukturen mit Metadaten Kopplungen gibt. Das haben wir gerade gesehen. Das erste Beispiel, die mCloud, da ist es jetzt in weiten Teilen eben leider nicht so. Aber Inspire ist ja beispielsweise auch mehr als ein Teil der mCloud, sondern Inspire ist ja auch
15:22
europaweit und da wird es durchaus mehr solcher Paare geben. Bei den Wetterdaten vom DVD haben wir zum Beispiel auch den Fall so gelegt, dass dort Metadaten verlinkt sind zu den entsprechenden Daten. Das
15:41
Gleiche gilt auch im Prinzip für die GDI.de, denn die macht ja im Wesentlichen auch nichts anderes als Inspire umzusetzen plus X. Aber wir wollen ja unser Projekt auch etwas breiter aufstellen und Open Data als Gesamtes sehen. Deswegen steht
16:01
jetzt zum Beispiel auch das GovData Portal mit dabei. Das ist ja das Open Government Data Portal des Bundesinnenministeriums und da sind ja noch mal viel mehr andere Daten drin als nur Geodaten. So, Deep Learning, das Stichwort. Deep
16:21
Learning ist im Prinzip eine spezielle Methode aus der KI. Da geht es darum, ja, neuronale Netze aufzubauen und denen was beizubringen. Da füttert man Daten rein und aus den Daten kann
16:40
man eben, wenn man das geschickt aufbaut, das gewünschte Verhalten ableiten. Jetzt haben wir daraus die Idee entwickelt, einen solchen Algorithmus aufzubauen, in dem wir Daten Metadatenpaare da reinfüttern und das System eben lernt, okay, wenn ein Datensatz so und so strukturiert ist, dann muss der
17:01
Metadatensatz ja so und so aussehen. Das ist im Prinzip die Idee hinter unserem Projekt, dass wir eben über diese KI-Methoden die Metadatenerfassung erleichtern. Im Ergebnis kann das so aussehen, dass wir dann eine Lösung haben, die selbstständig solche
17:20
Metadaten-Templates, da gibt es ja verschiedene Metadaten-Standards, automatisch befüllt werden können. So, jetzt zurück zu meinen geschilderten Ergebnissen. Die Metadaten-Kopplung ist leider selten vollständig, wenn wir gerade die mCloud betrachten. Und Deep
17:41
Learning, habe ich gerade erklärt, braucht große Datenmengen, inklusive eben genau dieser Verlinkungen, wenn wir es so aufbauen wollen, wie wir uns das vorstellen. Das bedeutet jetzt für unser Projekt, dass wir weitere Datenquellen auswerten müssen, damit wir eine KI überhaupt so befüllen können, wie wir uns das vorstellen. So, das sind jetzt
18:02
die drei Varianten für unsere Lösungsansätze. Einmal eine Template-basierte Metadaten- Erzeugung und Pflege. Dann die Variante, wir binden Deep Learning Algorithm genau in diesem Konzept mit ein. Und die Michform von beiden. Wahrscheinlich wird es auch auf diese Michform
18:21
hinauslaufen, denn bestimmte Metadaten-Bereiche, wie zum Beispiel Kontaktdaten, wird man irgendwie vorbefüllen wollen. Jetzt habe ich noch eine kleine, ich hoffe, man kann das erkennen, dass da verschiedene Bereiche sind. So, eine ganz grobe Skizze. Ich habe eben gesagt, wir sind gerade zwischen Datentypisierung und
18:41
Lösungskonzeption. Wir stellen uns vor, dass wir nachher ein Portal haben. Das sehen wir im oberen Bereich, wo es eine Deep Learning Komponente gibt und eine Suchkomponente. Der Nutzer greift auf die Suchkomponente zu. Die Deep Learning Komponente besitzt schon Kenntnisse darüber, wie Metadaten zu bestimmten Datentypen aussehen und lernt natürlich weiter dazu, wenn
19:02
Datenspeicher bei datenhaltenden Stellen weiter erfüllt werden. Die stehen natürlich auch immer im Austausch mit den Metadatenspeichern von allen möglichen Portalen. Und so stellen wir uns das grob vor. Meine letzte Folie. Ja, welche Ergebnisse können wir liefern? Wir hoffen die Antwort auf die Frage, ob die
19:21
Deep Learning Mechanismen geeignet sind, die Aufwände bei der Metadaten-Bearbeitung zu reduzieren, mit Ja beantworten zu können. Wir hoffen, einen Lösungsansatz bieten zu können, der die Metadatenpflege automatisieren kann. Und wir möchten die
19:40
Grundlage hier aufbauen, um eine vollumfängliche Lösung für die automatische Metadatenerzeugung und Pflege legen. So, dann wäre ich jetzt im Prinzip auch schon durch und stehe jetzt noch für Fragen und insbesondere auch die Diskussion bereit, denn wir sind auch relativ früh in dem
20:01
Projekt und sind da sehr offen und wollen auch diskutieren, ob das, was wir da vorhaben, auch Sinn macht und eine gute Idee ist. Vielen Dank. Ja, vielen Dank, Sebastian. Wir haben mal wieder gelernt,
20:21
jede Geodatensuchmaschine ist nur so gut wie ihre Metadaten, die dahinter liegen. Ich denke mal, es wird einige Fragen geben. Wer möchte denn? Danke für den Vortrag. Ich
20:43
würde gerne fragen, um welche Art von Metadaten es geht. Also was soll ergänzt werden von der künstlichen Intelligenz? Ja, also wir haben in der M-Cloud, die wir jetzt betrachtet haben, im wesentlichen ISO Metadaten, also XML-Format,
21:03
geodatenbeschreibend, aber auch ganz viel PDF. Denn zum Beispiel der DVD hat da ein Format, das ist ein PDF, und damit beschreiben die alle Metadaten über ihre Datensätze.
21:29
Weißt du, mit welchem Verfahren ihr die KI trainiert? Weil gerade mit so einen spärlich besetzten Datensetzen gibt es ja da verschiedene Verfahren, wie man das auch effizient gestalten kann. Ja, also erstmal haben wir das Ziel, dass wir natürlich
21:41
noch die Datengrundlage erweitern. Sprich, wir wollen uns dann noch die GDI.de zum Beispiel näher betrachten, ob das Sinn macht, da automatisiert das rauszuziehen, was wir jetzt aus der M-Cloud rausgezogen haben. Also unser Ziel ist erstmal die Datengrundlage zu erweitern. Danach wollen wir uns verschiedene Frameworks anschauen. Beispielsweise AWS hat da jetzt den SageMaker.
22:03
Das sind so Geschichten, wo wir uns dann draufstürzen wollen, im Prinzip. Ist doch schon spät.
22:22
Ja, noch ein kleiner Hinweis, wenn keine Fragen mehr sind, wenn du mal wieder im Ministerium bist. Ich glaube, da sind wir uns alle einig. Warum muss eigentlich jedes Ministerium, jede Bundesbehörde ihre eigene Datenstruktur haben? Ja, kann man sogar beantworten.
22:40
Also ich kann sogar eine Antwort darauf geben. Weil die Ressorts natürlich eigentlich alle, also die haben sogar teilweise Kooperationsverbote. Das heißt, die müssen auch eine eigene IT haben und alles selber aufbauen. Das ist tatsächlich so auch vom Gesetzgeber grundsätzlich gewollt. Ist leider so, ist blöd, aber die kooperieren
23:00
jetzt zum Glück lang. Wer hat das gewählt? Alles klar. Vielen Dank, Sebastian. Ja, gerne.