Bestand wählen
Merken

Der OpenStreetMap-Geocoder Nominatim

Zitierlink des Filmsegments
Embed Code

Automatisierte Medienanalyse

Beta
Erkannte Entitäten
Sprachtranskript
ab aber wie das ganze Eier wie das Ganze funktioniert es dann doch immer bisschen der Blackbox werde man hört auf war Begriff Schwarze Meer die und das möchte vor dem bisschen ausrollen wetterte kommend bis jemals zuvor dazu sagen was es heißt für uns Georg oder zu seinen erklären wie die Datenbank von Laminat dem aufgebaut ist und wie die Daten eigentlich Einkommen und dann auch kurze überbelichtet geben wieder eigentlich die Suchfunktion also
kurz der Suchfunktion die gibt es also schon relativ lange hat die 1. Suchprozess 2007 aufgetaucht mit einer Suchmaschine nannten verhandelt wurde von den beschrieben dabei relativ schnell mit dem Wachstum des Planeten nicht zurechtgekommen und deswegen hat 2009 einen komplett neuen Video oder geschrieben an einem dieser berühmten Dornheckweg des seit 2010 offiziell Suchmaschine auf uns hat dann aber auch relativ schnell Hardwareproblem gekriegt so dass wir die Hardware noch nochmal austauschen mussten unter 2012 ist also Poldi dafür zuständig die
Maschine der vorgesehen was heißt also für OS Georg oder zu sein also was man auf einer muss es eine freie Textsuche aller auf weltweiten Daten was bedeutet dass man im Prinzip so ziemlich alles gekriegt vor Monaten Formaten was man sich vorstellen kann also es geht vom einfachen Ort zu los bis zur vollständigen Adressen und Japan endlich das Problem also wir haben eine Vorstellung Adresse aussehen muss aber es ist in jedem Land anders und man muss dann relativ breit das Format ab der das gleiche Juli ist natürlich mit aus Daten normalen Joghurt Datenbanken hat man ein fixes Format aus das jetzt natürlich wenn man anderes Adressformat hat Macht und Einfluss der dem Schema das muss man auch alles unterstützen können weltweit
hat natürlich auch das Problem dass der relativ viel auf daheim zu Zeiten also 120 Millionen Objekte indiziert die gesucht können etwa 1 Terabyte Daten davon ist aber ein Drittel auskommen in Amerika war importiert haben und was da noch zu sagen dass ist es natürlich auch minütlich Update machen bei aber von heutzutage sehr ungeduldig möchte also seine Daten hochladen und gleich suchen können und von 1 Terabyte Daten die wir haben ist es also so dass die gesagt ein 3. die Hausnummern ein 3. tatsächlich sucht Daten und ein 3. wird nur dazu gebraucht um die Daten aktuell halten zu können es einfach damit eine Vorstellung bekommt was sich dahinter steckt Problem ist dass der relativ hohen Durchsatz wir also im Durchschnitt etwa 100 Anfragen pro Sekunde zu Spitzenzeiten sind 120 mehr schafft es aber nicht muss man allerdings dazu sagen dass 90 Prozent davon über Geocoding ist das heißt also für eine Koordinate möchte man Adresse ist ein bisschen leichter als die eigentliche so wie funktioniert das Ganze
als Geocoding machen wir brauchen im Wesentlichen 3 Sachen zum einen die Objekte die man suchen wir dann braucht man für jedes Objekt eine Presse weil das genau das ist was man benutzt für die Suche und natürlich auch mit Suchbegriffe man könnte das ganze zur Laufzeit einfach Verbrechen das heißt die Zuse Suchanfrage rein kommt es gibt auch einige Georg oder vor Ostern die das so machen aber bei uns Durchsatz ist einfach nicht möglich das heißt nominal berechnet alles alle Information Gebrauch jeweils vor was genau das
passiert das kann man sich auch unter Detail angucken auf Nominalzins eigenes Seite dass es nur hatte Ort gibt es als eine Detailansicht Roman für jedes Objekt sehen kann was für Daten gespeichert sind es macht das immer noch Besuch aufgeteilt liegt oder man kann auch wichtige gezeigt direkt für US zu muss weil die die Datenabruf schon der lässt im
Detail an was als allererstes passiert ist also dass das Objekt klassifiziert vor das entspricht ungefähr dem Hauptdeck das Subjekt das heißt Regierungsvertrag gehört hat kennt das also wir sowas wie Heidi man die es kann natürlich sein dass Objekte mehrerer Haupttext hat und dann wird das Subjekt einfach mehrmals Datenbank gespeichert als nächstes Berliner am nächsten hier und da kann dominanten so ziemlich alles lesen was es zurzeit muss gibt es geht also von über den internationalen schauten aufwischen was auch immer zusätzlich dazu ganz auf die Sprachvarianten verarbeiten und dann entsprechend der Ausgaben lokalisiert machen Namen werden auch Referenz 6 ausgewertet also Ralph in verschiedenen Varianten auch IATA kamen aus dem die Flughafen Referenzen und bisschen eigenartig auch das Opfer Zeit und das einfach dazu da dass man zum Beispiel Shell-Tankstellen Buxtehude suchen kann und das auf das schnell als Operator gibt damit haben also die nach was jetzt noch richtig es ist der Suchfragen was da so ein bisschen und unscheinbar zum steht das sagt also die regionale Bedeutung des Objektes und das ist wichtig dann für die Adressberechnung dass gleich sehen dass wird entweder aus dem Internet extrahiert oder dann jeweils aus der Klasse der gibt also der Heuristik die zu jeder Klasse entsprechende Suchkranke dann bestimmt waren die Wichtigkeit das ist also jetzt nicht die regionale Bedeutung sondern die bekannt das Objekt ist und was er dort zu dass das Subjekt mit entsprechend Wikipedia-Eintrag verknüpfen geht also wird über den offiziellen oder die man einfach mit Namen entsprechender Abgleich macht und dann schaut wie wie wichtig ist Wikipedia-Eintrag und Wichtigkeit brechen das heißt der oftmals wenn man feststellt dass die Suche infolge der Ergebnisse nicht so richtig stimmen dann lohnt sich einfach mal den Wikipedia-Tag zu ergänzen und das kann oftmals Youssou Reihenfolge was noch auch noch interessant ist der Mittelpunkt für die meisten Objekte der ist das einfach die geometrischen Mittelpunkt aber für Grenzen Erfassung mit dem Mittelpunkt mit dementsprechend und lässt der zu berechnen ist nur zu brechen das heißt es gibt so werden in der Relation ein war der Tag der ist dann wird das hat es das nicht gibt dann entsprechend der Admin Center das allerdings nur wenn es den gleichen Rang er hat einfach um zu verhindern dass wenn der Hauptstadt in der Relation ist dass die dann als Zehnter genommen aber das ist meistens nicht richtig funktioniert das auch nicht versuchen war der ist nur zu finden der innerhalb der Grenzen liegt und den gleichen Namen hat und weiß dass auch schief geht dann wird entsprechend der Mittelpunkt es gibt dann noch ein paar andere Sachen die jetzt aber nicht so von Bedeutung zu ok nachdem also alle Informationen haben ist der 2. Schritt der Presse zu brechen auch das kann man wieder nachschauen in der Detailansicht also der 2. Teil über Adresse und das 1. was man wissen muss hier ist das für jedes Objekt Press unabhängig berechnet wird das passiert einfach um bei den Adressen man bisschen warten muss ob es richtig ist dafür zu sorgen dass die Fehler sich nicht fortpflanzen die
Funktion des also zuerst einmal wenn alle Kandidaten ermittelt in den Daten die zu der Adresse gehören das ist als allererstes klar bei Krenz Relationen das Subjekt also jeweils in der entsprechenden Grenzen liegt dann werden es nur Obst und zwar da aber das kann ein bisschen heuristisch das heißt wenn sie in eine gewisse sind und ist insofern heuristische zum Beispiel den es lässt was also in der Schweiz im Kanton beschreibt in den USA beschreibt ist das heißt ob man daher welche Handynummer dann nutzen kann dass es etwas schwierig das außerdem noch hier in Betracht gezogen wird sind die es und Adressinformationen und das heißt man suchte einfach Objekte die sprechen die gleichen haben dann für die ganzen Kandidat muss natürlich gelten dass höhere regionale Bedeutung haben klar wie das in der Presse ist das heißt Standort ist ein Beispiel
an das es also Blumenrain dass es eine Strasse Zollikon an der Südgrenze zuzüglich war die Schweiz ist nicht wirklich interessant für die Adressberechnung weil wir alle Grenzen importiert das heißt man kann ziemlich genau die Adresse ermitteln sieht man ja auch so wunderschön also leq Bezirk mal in Zürich Schweiz wie man das erwarten könnte und ein Fall haben wir auch wo also erst Mord in Betracht gezogen worden weil die Stadtteile in der Schweiz noch nicht ganz mit Grenzen das also Team von 10 der Karte das wird also auch als mal miteinbezogen als Kandidat der genau hinschaut wird auf der Karte sehen dass es noch ein 2. Stadtteil gibt Namen 2 und der ist nicht auftaucht und das liegt einfach daran dass für beide Mac schon Grenze existiert entsprechende ist nur mit der Grenze in Verbindung gebracht wurde und dann einfach an ob die Grenze ist das genau das heißt diese nutzt ausgebrochen wenn wir dann alle Kandidaten haben haben aber natürlich unter Umständen zu viel und was dann einfach passiert ist dass der für jeden Anwender vorbestimmt haben wird am besten passende Kandidat verwendet das wäre also wenn die Grenzen der sind natürlich die Grenzen der ansonsten wäre noch ist und Address Tags in Betracht gezogen und der als das nicht funktioniert einfach nächste ist nur auf die Besonderheit dabei ist dass die Schnauze und die Hierarchie passen müssen das heißt unser Beispiel und was gerade hatten Daten hatte Algorithmus also festgestellt ok ist es sinnvoll konnten vom Rheinstraße und dann die nächste der City Bundeshaushalt von solle konnte das heißt das kann nicht funktionieren und damit wird als Kandidat ausgenommen die finale Adresse ist also wirklich solle bei Zürich Schweiz und das kann man ja also sehr gut sehen die grauen sind diejenigen die dann rausgeworfen worden als Kandidat und die schwarzen diejenigen die die finale einen
Sonderfall gibt es für alle Objekte die kleiner sind als Straßennetz also hauptsächlich Hausnummern und ist dabei die Adresse nicht extra berechnet einfach alles zu aufwendig ist also wir haben die 50 Millionen hat Hausnummer zwischen der Datenbank und dort wird einfach gepresst eines älteren Objektes genau allgemein ist die Straße und die kann also entweder aus einer Haustier Street Relationen benutzt werden Address Interpolation funktionierender auch das wird auch benutzt man kann die Straße explizit angeben mit etwas Dieter oder wenn das nicht funktioniert ist wird einfach die nächste Straße definiert benutzt eine Besonderheit gibt es seit kurzem dass man auch an Adressen eintragen kann die keine Straße haben dazu gibt also der Adresse ist dann wird also einfach einen älteren Objekt besucht was einen höheren Rang hat also wie ein Bilic oder was ok damit haben
also aller Dreßen für alle Objekte und der nächste Teil ist die Suchbegriffe anlegen für die eigentliche Suche und der Suchindex sondern man hat es relativ einfach aufgebaut hat nämlich genau 2 Listen oder um nur zu sein 2 2 Sammlungen einmal für den Namen und einmal wieder das heißt Namen Inhalt also alle Textdienst in unserem Beispiel vom Rhein wäre das nur Blumenrain und die Adresse Token enthalten also die Namen von allen möglichen Address Kandidaten also auch die war rausgeworfen haben einfach um bisschen mehr als die Suche zu erlauben es Natrix altes Text und auf Postleitzahl also ich hier Beispiel sieht man doch wieder zu tiefen Brunnen solle konnte ich meinen das kommt alles einfach in die Liste bevor
das ganze gespeichert war wird das noch ein ganz klein wenig normalisiert das ist aber jetzt nichts was eine mögliche falls die Suche erlaubt oder zukommen die Rechtschreib tolerant des Sohnes wird einfach groß Kleinschreibung entfernt nicht-lateinischen Sprachen werden transkribiert und was gemacht wird ist häufig Abkürzungen werden zusammen also Straße wird es verwandelt Platz die usw. dass man einfach bei der Suche also jeweils mit den geläufigen Abkürzung suchen kann das ist ein bisschen kritisch weil wir das natürlich für alle Sprachen der Welt machen müssen das heißt es gibt da ab und zu Überlappungen die die die Suche manchmal etwas eigenartig außerdem werden auch teilnahmen gespeichert einfach dass man also nicht die Technische Hochschule Rapperswil suchen muss sondern einfach Hochschullehrer was das wird auch den da
ist also klar wie der Suchindex funktioniert und wir schauen wie die Suche dann darauf zu was also was wir also wissen ist der Index mit Namen und Adressen das heißt wenn eine Suchanfrage kommen muss man sie einfach nur den Samstag verlegen den Adressteil und dann entsprechend die Begriffe die man darin findet im Index suchen und die entsprechenden Objekte die darauf komplett immer wieder ausgeben das ist natürlich in der Realität nicht ganz so leicht weil wenn man eine
beliebige Suche hat dann gibt es möglich mehrere Zerlegung und es daher wenn der hat einige Heuristiken an um die wahrscheinlichste Zerlegung zu finden und damit auch das richtige sowohl gegen das 1. was passiert ist das für ein Objekt Kommas trennen immer Address Bestandteile das heißt es ist nicht möglich Namen zu suchen die Kommas enthalten ist macht aber einfach die Endergebnis etwas etwas kleiner außerdem ist die andere Annahme dass Adresse immer wieder aus dem Namen und Adresse besteht oder anderes von ursprünglich was nur Name und Adresse aber schnell festgestellt zum Beispiel in Deutschland ist es doch recht üblich vom Land hinunterzugehen bis auf die Hausnummer und und das unterstützen die jetzt also weiter Richtung zusätzlich dazu gibt es noch eine Sonderbehandlung für Hausnummern nahm usw. Das auch hauptsächlich um Paris deswegen zu machen was eigentlich gemeint wurde und auch im Index leichter zu also ich hab ja ein Beispiel aufgeschrieben die Ärzte Straße 2 1 2 3 7 Pfäffikon was da also passieren würde erstmals wird das Ganze normalisiert wie auch vorher schon für die Datenbank das heißt nannte das Fach contra auf und strahlte wird es die umgewandelt und dann gibt es im Wesentlichen 4 Ergebnisse als einmal das jetzt als Namen gewonnen genommen wird und dann Straße 32 Pfäffikon Schwyz als Adresse dann das Etzelstraße benutzt wird und der Rest als Adresse und wenn man annimmt dass das ganze vielleicht auch anders sein könnte für uns ist klar dass es also Schwyz etwas Höheres ist aber den für den Computer natürlich nicht das heißt wir noch 2 weitere Varianten das ist das Schweiz schwieg der Besuch der Name ist und der Rest der Presse und das ist außerdem also die Frage ob Ärzte und Straße noch 2 teils als nächstes haben also verschiedene Kandidaten die die Zerlegung des wird das ganz
einfach an die Datenbank sind das heißt die Liste meinen verbindet ein paar Heuristiken welche man zuerst sendet das ist hauptsächlich das möglichst wenig Zerlegung macht also meine an das wirklich die , ist die Teile komplett trennen meint dass so eine Frau vollständig Übereinstimmung also wenig Nachteil nahm zu suchen sondern einer vollen Namen und diese Einzelanfragen wenn es die Datenbank es ist die 1. Anfrage ein gutes Ergebnis liefert beziehungsweise bis wir sagen optimiertes genug jetzt wahrscheinlich ist dass in der Datenbank nicht da ist macht die suchen bisschen effizienter hat aber den Nachteil dass zum Beispiel gerade bei partiellen Matches die die Suche oftmals abgebrochen wird bevor der richtig weiter gefunden wurde also werden jetzt wieder fallen mit Rothenburg ob der Tauber das niemals gefunden wird wird einfach zu viel Rothenburg damals nach Rothenburg sucht und der US nur Rothenburg ob der Tauber drinnen war was man da machen kann es solche üblichen Abkürzungen gibt das einfach als zusätzlich als Shorten oder locker eintragen die OS Datenbank und dann weiß Nomina hatte das ist dann entsprechend auch unter diesem Namen suchen soll ok so wird haben wir dann
also die US Objekte die Gesuch entsprechen und jetzt müssen wir natürlich noch aufbereitet werden und zurückgegeben werden hier ist natürlich dann noch wichtig dass man die entsprechende Richtigkeit Orten und daher kommt jetzt genau wieder der Wikipedia-Einträge was sich am Anfang Kartenspiele das heißt es allerwichtigste ist die Bekanntheit des Subjektes die neu geordnet werden außerdem werden auch in Betracht gezogen ob wieder letztendlich Name wie gut zu der Anfrage passt da kann also ein paar Sachen ausschließen die durch die Normalisierung schief gegangen sind oder nicht funktioniert haben und was man von großer aussucht auch noch in Betracht gezogen wird ist in welchem Kartenausschnitt man sich ja die das ganze wird dann noch etwas aufbereitet und entsprechend dann an die US seit ich geschieht das heißt
also im Schnelldurchlauf ganz grob wie das Ganze funktioniert dieses mit der Zukunft aus also haben natürlich es bei der immer besser sein ist klar eine der Haus am häufigsten angefragten sagen sind Postleitzahl und das ist was worüber wir nicht so gerne geben weil es mir nicht wirklich richtig zurzeit gibt also viele Postleitzahl die statisch einfach und der Datenbank sind wir natürlich aktualisiert und auch die Postleitzahlen allein administrativen Grenzen wäre noch nicht richtig ausgewertet dann was auch gerne gefragt wird sind tolerante Schreibweisen da müsste man also die Normalisierung erwies sich gerade vorgestellt hat noch mal überarbeiten ist als auch SPD und auch ein wichtiger Punkt des Adresse Vorschläge das heißt wenn man das einzige das schon die 1. Ergebnisse und plötzlich alles würde später kommen wir sind aber zurzeit nur 2 Entwickler an der Software und da gibt es wirklich Zeit Zeitprobleme das heißt er gern mitmachen möchte ich natürlich bekommen bringt uns 4. . Dokumentation davon gibt es noch nicht allzu viel ich hoffe dass die vor jetzt hier ein bisschen den Einstieg bieten könnten ansonsten sind endlich
bereit Fragen zu beantworten das was von ihr sobald der Sourcecode ist natürlich Open-Source verfügbar und mehr Informationen finden sich auch die bayerische sorgt sich gibt es Frau Hallo optischen und Übermacht jedoch die wird dort und die dort zurückkommen und noch vor dem Ausschuss muss hat als Dornbruch zu zustimmen für Leute die wird dies auf zu den Worten ballistischen haben möchten oder mehr nachvollziehen von dort dort Berechnung es gab Diskussion über aber das Problem ist selbst nur den sucht nutzt also den ab den Daten wegwirft ist dann immer noch etwa 16 Gigabyte groß ist also nicht wirklich was was man einfach mal bereitstellen kann aber im Prinzip Fenster Anfragen gibt es sowas schon machen und die 2. von also wie kann nicht jetzt als ich bin kein Normalnutzer aber sie dürfen schon bis auch nur überhaupt nur mit so Staus oder zuständig nicht gefunden Tipps sollten Gestalt und musste mich damals noch unruhig war also der detaillierte einsichtig gezeigt hat die jetzt natürlich meistens schauen Edwards man schaut einfach welche Adressen werden nutzt tatsächlich und kann dann oftmals das sehen aber ansonsten ja muss man doch schon relativ viel wissen was intern passiert welche Heuristiken da genutzt werden durch ob so Problem würde ich möchte mit dem es sich von bewusst ist bislang Typen zu blöd gefunden wird der so und somit will und scharfen ist und es wird von über den oder durch um über das sollte eigentlich funktionieren sind da lohnt sich den einfach mal Backup vorzuschreiben Nachfrage bei so vielen Dank auch für den Service von wo man dort löst sich Nicolas wird auf muss sich das morgen zuvor wollten und schaut durch die Karte bestellt Groß-Berlin eingelullt liegen drücken dort aber unter Punkt warum die Wichtigkeit aus Wikipedia und August und warum lockt nicht wie oft wird aus on gefolgt und subtil zu überholen wollen ob Dorfen und so schon also ein Vorteil natürliche über Wikipedia kann man das statisch macht das macht also die dann das ganze Absätze einfacher aber haben wir haben das noch nicht probiert was passiert wenn man tatsächlich die Anfragen selber aus werde das Problem es auch dass man da und 7 Feedback was die User Weg gewählt also wenn mein Berlin 1 und dann 5 Berlins geht dann des weit wissen dass das in Deutschland immer gewählt hat nicht das in USA das heißt der bräuchten Feedback Kanal von US selber und das haben auch noch nicht noch vor der nicht nur aus der Klinik richtige Wichtigkeit aus der Wikipedia aus also des Artikels einfach nur mehr Buchstaben unsere also da die das heißt kennen nur vereinzelt Seite aber im Wesentlichen ist es wie auch Google das macht das überlegen und usw. könne gut bei vielen Dank sowie
Blackbox
Besprechung/Interview
Datenbank
Hardware
Suchmaschine
Datenhaltung
Suchprozess
Durchfluss
Dateiformat
Normalvektor
Suchmaschine
Netzadresse
Computeranimation
Laufzeit
Vorverarbeitung
Durchfluss
Durchschnitt <Mengenlehre>
Information
Durchfluss
Netzadresse
Koordinaten
Computeranimation
Netzadresse
Objektklasse
Internet
Heuristik
Datenbank
Rang <Mathematik>
Objektklasse
Milan <Programmiersprache>
Netzadresse
Computeranimation
Operator
Eigenwert
Datennetz
Rang <Mathematik>
Information
Geometrie
Rippen <Informatik>
Netzadresse
Algorithmus
Polygon
Rang <Mathematik>
Anwendungssoftware
Netzadresse
Computeranimation
Netzadresse
ALT <Programm>
Ebene
Interpolation
Datenbank
Liste <Informatik>
Rang <Mathematik>
Netzadresse
Computeranimation
Index
Zerlegung <Mathematik>
Netzadresse
Computeranimation
Netzadresse
Index
Heuristik
Höhe
Datenbank
Zerlegung <Mathematik>
Zerlegung <Mathematik>
Netzadresse
Computeranimation
Inverser Limes
Richtung
Punkt
Software
Datenbank
Softwareentwickler
Netzadresse
Computeranimation
Dienst <Informatik>
Punkt
Typ <Informatik>
Google
Besprechung/Interview
Heuristik
Berechnung
Sicherungskopie
Wort <Informatik>
Information
Netzadresse

Metadaten

Formale Metadaten

Titel Der OpenStreetMap-Geocoder Nominatim
Serientitel FOSSGIS Konferenz 2013 : Rapperswil, 12. - 14. Juni 2013
Anzahl der Teile 31
Autor Hoffmann, Sarah
Lizenz CC-Namensnennung 3.0 Unported:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
DOI 10.5446/15845
Herausgeber FOSSGIS e.V.
Erscheinungsjahr 2013
Sprache Deutsch

Inhaltliche Metadaten

Fachgebiet Informatik
Abstract Nominatim ist die Software, die sich hinter der Suchbox der OpenStreetMap-Hauptseite verbirgt. Sie bietet eine Freitext-Suche genauso wie Reverse-Geocoding, deckt OSM-Daten weltweit ab und kann minütlich auf dem Stand der letzten Änderungen in OSM gehalten werden. Dieser Vortrag gibt einen kurzen Einblick ins Innere von Nominatim. Es wird erklärt, wie die OSM-Daten vorverarbeiten werden, wie ein Ort seine Adresse erhält und wie schlussendlich die Suche selber funktioniert. Der Schwerpunkt liegt dabei weniger auf technischen Details sondern der Vortrag wird mehr die grundlegenden Prinzipien erklären, die der Suche zugrunde liegen. Damit soll dem interessierten Mapper geholfen werden, besser zu verstehen, wie die sorgfältig in OSM erfassten Daten verarbeitet werden, damit sie von anderen gefunden werden können.

Zugehöriges Material

Ähnliche Filme

Loading...
Feedback