Bestand wählen
Merken

OpenMetaData

Zitierlink des Filmsegments
Embed Code

Automatisierte Medienanalyse

Beta
Erkannte Entitäten
Sprachtranskript
ja herzlich willkommen zum zweiten Vortrag zum Thema Open Täter ich weiß nicht ob es Ihnen auch schon mal so gegangen ist sie in ein neues Projekt auf den Tisch und Sie wissen ja da gibt es freie Geodaten aber ich weiß nicht mehr wo diese liegen auf welche Webseite keine Ahnung ich fange an zu suchen und man weiß ich nicht was könnte weil ich finde sie einfach nicht wenn wir brauchen die da reden müssen auch über Metadaten reden das sind die Daten die halt Videodaten beschreiben und nur über Metadaten kann man letztendlich auch die die Daten finden und wie man das beides zusammen kriegt und etwas bauen kann wo man denn auch letztendlich die Djurgarden findet das wird und Sebastian Georg erzählen genau da wunderbar wünschen auf Sendung ja auch von
meiner Seite auch noch mal guten Tag zusammen zu dieser schon vorgerückten Stunde ich habe heute die Ehre haben Ihnen das Projekt Meter auf Delta vorstellen zu dürfen mit dem schönen Untertitel an Metadaten manuell erzeugen war gestern ist natürlich explizit provokant gewählt aber bevor ich jetzt in den Vortrag einsteigen ich man mich gerne auch noch selber vorstellen also mein Name ist sowas denn wirklich Arbeiter als Technologieberater bei der Firma also
Preis der Consulting dessen französischer
Konzern und ich arbeite für ja für die die Deutsche Niederlassung quasi in Deutschland beschäftigen wir uns in den wesentlichen mit stark Management und IT-Beratung ja und die der öffentliche Sektor ist also und einer unserer unserer wichtigsten Geschäftsbereiche ja wir haben gemeinsam mit der Firma Mundi alles da hat der Markus Metella eben bereits einen Vortrag gehalten von dieser Firma deswegen stelle ich jetzt nicht groß vor ich denke die für Person sind auch hinreichend bekannt wir uns mit der mundiales zusammengesetzt und überlegt wir müssten doch eigentlich mal irgendwie den Leuten helfen ihre Daten was oder Daten besser zu finden da hat sich jetzt der Fördertopf empfangen angeboten ist der hier bekannt also wer kennt den empfand vom Bundes Verkehrs müsste gar nicht so sehr vielleicht ich einfach mal noch 2 Sätze zu diesem Empfang Anfang dessen Fördertopf von Bundesverkehrsministerium den haben die glaube wird vor anderthalb Jahren aufgesetzt oder vor 2 Jahren aufgesetzt da sind 150 Millionen Euro drin es gibt 2 Förderlinien in der einen kann man so Machbarkeitsstudien machen das hier ist jetzt so und so und am Projekt aus dieser Förderlinie 1 man kann aber auch als große Entwicklungsprojekte machen da gibt es dann auch bis zu 3 Millionen an Fördergeld also für das muss man natürlich dazu sagen für datengetriebene Projekte insbesondere im Open Delta Umfeld und wenn man sich noch meine speziellen mit Daten aus dem Jahr auf dem so des Verkehrsministeriums beschäftigt was natürlich sehr schön ist denn abends Verkehrsministerium hat ja alle möglichen Verkehrs Bundesämter unter sich oder auch den DWD also da kann man glaube ich gerade aus aus unserer Community hier ziemlich viel daraus schöpfen also sollte man sich anschauen so aber jetzt hier zum Thema Meter auf und älter ist der Titel ich und gesagt ein paar
Zahlen Daten und Fakten zu unserem Projekt bevor ich dann aber inhaltlich werde also wir machen
eine Machbarkeitsstudie im Rahmen von diesem an dem oder den Herz vor einem fand von dem vor ich gerade gesagt das Fördervolumen ist da liegt bei 100 Tausend Euro wir machen das ganz im Verbund unser Partner ist die die alles und ja wir haben uns auch schon ein schönes R Projekt Logo überlegt und weitere Infos rund um das Projekt gibt es auch auf der Internetseite von einem fand ich habe den den gesamten mattroten unten dran gepackt ich denke die Fohlen wenn der bereitgestellten kann sich da jeder auch nochmal tiefgreifender informieren sind übrigens auch ganz andere spannende Open der der Projekte die man sich da so anschauen kann so wenn wir inhaltlich
was ist eigentlich unser Projekt Ziel habe ich eben so schön eingeleitet Smits an
Metadaten manuell erfassen war gestern und das spiegelt sich auch ein Stück weit natürlich hier auch in in unserem möglichen Projektergebnissen wieder zum einen sehen wir dass Metadaten zukünftig automatisiert erzeugt werden als ein wesentlicher Knackpunkt dazu gehört aber auch das uns überlegt haben mehr Herr K I und darf auch im speziellen Deep Learning wenn ist die Blondine ihren Begriff grundsätzlich das sind immerhin schon ein paar sage ich nachher und ein paar Worte zu ja dass wir eben solche solche Methoden hier durchaus dafür einsetzen können um an Metadaten automatisiert zu erzeugen und eben die Pflege von von Metadaten ja zu vereinfachen ein ganz wesentlicher Punkt denn wir auch wirklich als wichtiges Ziel sehen ist dass wir im Sommer eben durch den Einsatz von dem sicher Intelligenz die Auffindbarkeit von von Daten verbessern können und dabei wollen wir natürlich auch individuelle Suche konvexen Bürger berücksichtigt wissen wenn man sich nämlich beispielsweise mal anschaut ok ich gehe jetzt mal aus Geoportal D E und suche mir da mal was dann komme ich schnell an die Grenzen des möglichen denn das was ich da finden kann ist immer nur so gut wie die Metadaten befüllt sind und was die Metadaten zu den Daten sagen er wenn ich halt etwas interessiert was unter bestimmten Voraussetzungen in meine Suche Kontext jetzt nicht berücksichtigt wurde habe ich da eben schon ein Problem ja 1 oder das letzte mögliche Ergebnisse unseres unser Machbarkeitsstudie ist dann eben das die manuelle Metadaten Datenerfassung überflüssig wird es wird sich mal die Runde fragen wer hat denn schon mal manuell mit aber auch tun geschützt aber Metadaten erfassen müssen dürfen sind schon einige und hat das Spaß gemacht so also ich denke da Fakten betraten ganz essentielles Problem auch an nichts oder oder gerade auch weil mit der Daten Pflege und und Fassung auch die recht aufwendig ist und sein kann und ich denke es ist ist da auch wichtig hier auch ja Zeit und Geld sparen zu können
hier ich hoffe das kann man von der größten lesen am haben habe ich jetzt einmal zusammengestellt wie wir da vorgehen wollen alle fangen an ganz links inmitten der Typisierung Formen von Daten wir müssen wissen noch keine was gibt eigentlich so viel Daten in der auch in der Fachwelt oder in der EU Welt und wie sehen denn jeder Datenformate dazu aus danach wollen wir uns Lösungsansätze überlegen wie wir im Prinzip ja die Projektziele die ich gerade eben ausgeführt habe erreichen können anschließend geht es daran wenn der Konzeption erst mal so weit sind aber geht es dann ans praktische dass wir eben uns das Thema Deep Learning tiefer ansehen und eben Daten entsprechend aufbereiten damit sich da auch jagt die KI trainieren kann kurz bevor wir dann zum Projekt Ende kommen wollen wir das Ganze dann noch mal mit dem Prototypen umsetzen also einen Proof-of-Concept und das ist immer am Ende von Forschungsprojekten so muss die Ergebnisse auch evaluieren und schauen ob man denn auch sein Ziel erreicht hat genau der Vortrag hier wird sich tatsächlich nur mit den 1. 3 ja Entwicklungsstufen unseres Projektes man mal beschäftigen denn wir haben tatsächlich im im Dezember erst angefangen und sind im Moment so zwischen Stufe 1 Daten Typisierung und Stufe 2 der Ausarbeitung von Lösungsansätzen Projektfortschritt so soldaten
Typisierung ja was vor und sind eigentlich genau an an an Daten und warum gucken uns gerade diese Daten an das ist jetzt nur relativ knappe Folie kann ich auch begründen wir machen Förderprojekt mit Forschungsgeldern oder Fördergeldern vom Verkehrsministerium also schon uns natürlich auch die Daten an die diese dieses Ministerium entsprechend bereitstellt das hat in ganz pragmatischen Grund das ist wahrscheinlich einfacher dann auch ein Projekt machen zu dürfen wenn man sich mit dem beschäftigt was auch das entsprechende Ministerium bewegt daher schauen uns an das Daten-Portal des BMVI das ist die Cloud wer hat von der im Cloud schon mal was gehört sind auch ein paar wie ein Cloud ist im Prinzip so was wie das Daten-Portal des BMVI da es sind aktuell knapp 650 Datensätze drin das ist jetzt noch nicht so so Ultra umfangreich das wird aber noch in den in der kommenden Zeit und wachsen ja darüber hinaus schon muss natürlich auch die Kopernikus Daten an das wird er das Feld sein mit dem sich dann und ja alles in unserem Projekt beschäftigen darf da kenn ich mich jetzt persönlich auch nicht so in der Tiefe aus aber dass es aber diese diese Kopernikus Daten betrifft das mit der Daten Problem grundsätzlich auch genauso so der haben natürlich schon 1. Ergebnisse aus Daten Typisierung mitgebracht zunächst einmal das ist so das was
meine der in der Cloud findet und das Spektrum von Datenformaten mit dem man sich oder mit dem wir uns jetzt im im 1. Schritt auseinandergesetzt haben was und Stückweit fehlt sind die Kopernikus Daten aber das ist es im Wesentlichen das was man in der Cloud findet an Formaten 30. 11. dabei also auch EML beispielsweise das Chat Dateien CSV-Dateien verschiedene Jason Schnittstellen und die oder sind Schnittstellen es gibt auch die Hotels und weitere es jedoch Textformate und ja auch auch weitere solcher solcher Pasta ähnlichen Formate sage ich jetzt mal ja und damit tatsächlich auch auf der Basis dann es Ergebnisse und zwar
muss natürlich mit der Frage beschäftigt wie
qualitativ hochwertiges und das was seinem Cloud an Daten drin ist und können wir denn damit nachher habe ich nachher drauf mit unseren Ideen rund um Künstliche Intelligenz und Deep Learning überhaupt arbeiten das ist ein wichtiger Befund dass die Daten die man glaubt und sind Jahren ungefähr zu 50 Prozent mit Metadaten verlinkt sind ist natürlich sehr Halle niederschmetternd denn das bedeutet dass man entweder für die anderen knapp 50 Prozent die Metadaten irgendwie vierhändig dazu wurden muss oder die fallen eben als Daten Basis weg das Spiel geht noch weiter Artenvielfalt man kann ja
sehen im Wesentlichen haben wir hier und jeglicher Couleur die halt in der klauten sind hier haben jetzt in dieser Grafik in der kann nur berücksichtigt die da die liegt in der in der Folie zuvor mit Ja beantwortet wurden Jahr da sehen wir außer CSV habe da ich nur die Uhr Datenformate die überhaupt in die Metadaten haben also wo ich auch auf wieder Datensätze zugreifen kann das Thema Daten Vielfalt beantworte sich damit in der Richtung dass natürlich das sehr schade ist dass außer den EU-Daten im Prinzip kaum Datensätzen deren Cloud Metadaten besitzen oder zumindest verlinkte mit einer besitzen dann die
Frage Daten Ökosystem wenn
jetzt an einem Geo- Daten denken an Geodateninfrastrukturen haben es immer so dass wir von Dienste Architekturen sprechen wo er in die nächste liegen die Metadaten besitzen die wiederum am auch Datensätze beschreiben und das alles durchaus so vorgesehen dass es miteinander verlinkt ist und nachher mit und komplette ein komplettes Ökosystem von Videodaten darstellen soll ja was wir jetzt hier sehen in dem Diagramm ist tatsächlich die Verlinkung von also die Links auf Datensätze in den Metadaten setzen die alle referenziert worden also sprich das geht jetzt noch ein Schritt weiter die Metadaten Datensätze die wir gerade eben als links hatten linken selber zurück auf ihre Daten
und das sind eben knapp 100 und im Wesentlichen im Mai in Speyer und bei der Hand ist man sonstige Daten genannt das ist halt ein bunter 2 von verschiedenen G und Datenformaten da sieht man schon das wenn man wenn man wenn man diese gelingt Täter-Geschichte als Qualitätsmerkmal nehmen möchte für für Open Detter Dass man da jetzt hinsichtlich der klauten Problem haben warum das ein Problem ist da komme ich jetzt gleich drauf möchte dass man noch in kleinen Exkurs machen damit man auch genau versteht warum das eigentlich Problem ist wenn ich jetzt so und so um die Blanning Thema
sie steht die Frage im Mittelpunkt wie kann in die planen mit wurden von Vorteil sein hier für unser Projekt wenn die Ausgangslage das es bereits große Infrastrukturen mit Daten Metadaten Kopplungen gibt haben wir gerade gesehen das 1. Beispiel die Cloud da ist es jetzt in in weiten Teilen eben leider nicht so aber ins bei der ist ja beispielsweise auch mehr als ein Teil der im Cloud von ins der ist ja auch europaweit und da wird es durchaus mehr mehr solcher Paare geben bei den Wetterdaten vom DWD haben wir zum Beispiel auch denn in dem Fall sogar gelegt das dort Metadaten verlinkt sind zu den entsprechenden Daten das gleiche gilt auch ja im Prinzip für die für die GDI-DE denn da die Macht der im Wesentlichen auch nix anderes als ins bei umzusetzen plus X aber wir wollen unser Projekt auch etwas etwas breiter aufstellen und Open Delta als gesamtes sehen und deswegen steht jetzt zum Beispiel auch das Kauf Täter Portale mit dabei das ist ja das Open Government Data Portal des Bundesinnenministeriums und da sind ja noch mal viel mehr andere Daten drinnen als nur die Geodaten so die planen das Stichwort die planen ist im Prinzip in einen spezifischen eine spezielle Methode aus aus der KI da geht es darum ja neuronale Netze aufzubauen und denen was beizubringen zu der Daten wollen und aus den Daten kann man eben wenn man das Geschick aufbaut das gewünschte Verhalten ableiten dass haben wir daraus die Idee entwickelt an solchen Algorithmus aufzubauen in dem wir Daten Metadaten habe darein füttern und das System im Land okay wenn Datensatz so und so strukturiert ist dann muss der Mieter Datensatz ja so und so aussehen dass es im Prinzip die Idee hinter hinter unserem Projekt dass wir eben über diese KI Methoden die mir der Datenerfassung erleichtern mir geht es kann es so sehen dass wir dann er Lösung haben die selbständige solche Metadaten Temple jetzt da gibt der verschiedene Metadatenstandards automatisch befüllt werden können so jetzt zurück zu
meinem geschilderten Ergebnisse die Daten Metadaten Kopplung ist leider selten vollständig können trat die am glaubt betrachten und Deep Learning habe ich gerade erklärt braucht große Datenmengen in klusive eben genau diese Verlinkungen wenn aufbauen wollen wie wir uns das vorstellen das bedeutet jetzt unser Projekt das für weitere Datenquellen auswerten müssen damit wir eine KI überhaupt so befallen können wir uns das vorstellen so das wir sie 3 Varianten für umso Lösungsansätze ein mit dem basierte mehr daran dass Zeugen und Pflege dann die Variante wir binden die blonden Algorithmik immer und diesen diesen Konzept mit ein und die mich Mischform von beiden wahrscheinlich wird auf diese mich vom hinauslaufenden bestimmte Meter Bereiche wie zum Beispiel Kontaktdaten wird man irgendwie vorbefüllten wollen das habe ich noch
eine kleine ich hoffe man kann dass er können dass auf verschiedene Bereiche sind so mir ganz grobe Skizze ich habe eben gesagt wir sind gerade zwischen dann Typisierung und Lösungs Konzeption Wir stellen uns vor dass wir nach ein total anders sehen im oberen Bereich wo die planen Komponente gibt und Suche Komponente der Nutzer greift auf die Suche Komponente zu wie die Blenden kommt Komponente besitzt schon Kenntnisse darüber wie ein Jahr Metadaten zu bestimmten Datensatz Datentypen aussehen und lernt natürlich weiter dazu wenn Daten Speicher war Daten hat Stellen weiter befüllt werden ich stehe natürlich auch immer Austausch mit den Metadaten speichern von allen Menschen Portalen und so stellen muss das grob vor meine letzte Folie
ja recht Ergebnisse können wir liefern wir
hoffen die Antwort auf die Frage ob die blonde Mechanismen geeignet sind die Aufwände bei der Metadaten Bearbeitung zu reduzieren mit ja beantworten zu können wir hoffen an einen Lösungsansatz bieten zu können der den die Ermittler Gartenpflege automatisieren kann und wir möchten die Grundlage ich hier aufbauen um eine vollumfängliche Lösung für die automatische Metadaten Erzeugung und Pflege ja legen so dann wäre ich jetzt im Prinzip auch schon durch und stehe jetzt noch für
Fragen und insbesondere auch die Diskussion bereit denn wir sind noch relativ früh in dem in dem Projekt und sind da sehr offen und wollen auch diskutieren ob das was wird auf Vorhaben
auch Sinn macht und eine gute Idee ist vielen Dank ja vielen Dank Sebastian ja mal
wieder gelernt jede die Rohdaten Suchmaschine ist nur so gut wie ihre Metadaten die dahinterliegenden ich denke mal es wird einige Fragen wer möchte den wenn an und dann einen Vortrag ich würde eine Frage um welche Art von Literaten es geht also was soll ganz werden von der das sind die ganz und mehr ja also wir haben in der Cloud die wir jetzt betrachtet haben im Wesentlichen an wieso Metadaten also XML-Format ihre Daten beschreiben aber auch ganz viel PDF wenn zum Beispiel der DWD hat dann Format das in PDF und damit beschreiben die alle ihre da wird gespielt ok weißt du mit welchen Verfahren in die KI trainiert bei gerade mit sondern als spärlich besetzten Datensätzen gibt sogar verschiedene Verfahren und das auch effizient gestalten könnten ja also erst habe das Ziel das natürlich noch die Datengrundlage erweitern sprich wäre und es dann noch die GDI-DE zum Beispiel mehr betrachten ob das Sinn macht der Automat Sie jetzt das rauszuziehen was wir sonst glaube ausgezogen hat also unser Ziel es erstmal die Datengrundlage zur weiteren danach wollen uns verschiedene Freenet anschauen beispielsweise AWS hatte jetzt ins Städtchen Hacker aber das sind so sind so Geschichten um uns dann drauf stürzen wollen Prinzip es war schon spät wird mit ja noch ein kleiner Hinweis wenn keine Fragen mehr sind wenn du mal wieder im Ministerium bist ich glaube dass wir uns alle einig warum muss eigentlich jedes Ministerium jede Bundesbehörde ihre eigene Datenstruktur haben sehr schön groß kann kann man sogar Antwort an sich kann nur eine Antwort auf der ja weil weil diese ist natürlich ein alle also die haben sogar teilweise Kooperationsverbot R das heißt die müssen auch neigen haben und alles selber aufbauen dass es tatsächlich so auch vom Gesetzgeber grundsätzlich gewollt ist leider so ist blöd aber die Korber zum Glück leider hat das gewählt ich begrüße alles klar vielen Dank Sebastian ja gerne
Punkt
Momentenproblem
Konvexer Körper
Echtzeitsystem
Datenformat
Richtung
Metadaten
Algorithmus
Suchmaschine
Meter
Geodateninfrastruktur
Hacker
Schnittstelle
Prototyping
Automat <Automatentheorie>
Geodätische Linie
Speicher <Informatik>
Ähnlichkeitsgeometrie
Feasibility-Studie
Zahl
Erzeugende
Dienst <Informatik>
Messwerterfassung
Rohdaten
Portal <Internet>
Chatten <Kommunikation>
Dateiformat
Datenerfassung
Prozessautomation
Kopplung <Physik>
MAX <Programmiersprache>
Datei
Metadaten
Tiefe
Web-Seite
Pen <Datentechnik>
Architektur <Informatik>
PDF <Dateiformat>
Datenaufbereitung
Datensatz
Bildschirmmaske
Kopplung <Physik>
Datentyp
Datenstruktur
Lösungsraum
Algorithmus
Videodat
Feasibility-Studie
Künstliche Intelligenz
Datensatz
Lösung <Mathematik>
Diagramm
Rundung
Geodateninfrastruktur
Wort <Informatik>
Stochastische Erzeugung
Streuungsdiagramm
Neuronales Netz

Metadaten

Formale Metadaten

Titel OpenMetaData
Untertitel Metadaten manuell erzeugen war gestern
Serientitel FOSSGIS Konferenz 2018: Bonn, 21. - 24. März 2018
Anzahl der Teile 95
Autor Goerke, Sebastian
Lizenz CC-Namensnennung 3.0 Unported:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
DOI 10.5446/36207
Herausgeber Chaos Computer Club e.V.
Erscheinungsjahr 2018
Sprache Deutsch

Inhaltliche Metadaten

Fachgebiet Informatik
Abstract Der freie und unbeschränkte Zugang zu Daten ist das zentrale Element des Open Data Gedankens. Dieses Ziel ist durch alleinige Bereitstellung von Daten nicht zu erreichen, denn die bereitgestellten Daten müssen für Interessierte Nutzer auch auffindbar sein. Gerade im Kontext des Bundesministeriums für Verkehr und Digitale Infrastruktur ist dies eine zentrale Anforderung in Bezug auf die riesigen Datenschätze des Geschäftsbereiches. Im Rahmen des Modernitätsfonds mFUND untersuchen wir im Projekt "OpenMetaData" die Machbarkeit von Maßnahmen zur Verbesserung
Schlagwörter Freie Daten

Zugehöriges Material

Video wird in der folgenden Ressource zitiert

Ähnliche Filme

Loading...
Feedback