Bestand wählen
Merken

12 Semantic Web Technologien - Linked Data Engineering

Zitierlink des Filmsegments
Embed Code

Automatisierte Medienanalyse

Beta
Erkannte Entitäten
Sprachtranskript
ich begrüße recht herzlich heute wieder zur Vorlesung meint Web-Technologien jetzt die Nummer 12 beziehungsweise 13 nachdem möchte letztes Mal hatten aufgehört mit
und deutsche Ingenieure ein bisschen besser lesen aber das ging als Strom dass man jetzt nicht nur quasi für zu Hause Hausgebrauch aber anfängt Ontologie Wissensrepräsentation zu entwerfen sondern es gibt die Softwareengineering auch für entsprechend große Projekte Methodologien Vorgehensmodell wie ich effizient verteilt auch sehr sehr große der Wissensrepräsentation gezielt mit möglichst wenig Redundanz mit möglichst wenig Konsistenz möglichst preisgünstig dann natürlich auch noch entwickelt das hat uns das letzte mal angeschaut also beim auf der einen Seite und die Berufsstrategie dazu da nur auf der anderen Seite der zu wie ich in automatisierte Art und Weise zu diesen und zum Teil auch kommen kann und von dann zum Beispiel hatten wir kennen gelernt Methoden wie man auf der einen Seite die Boxen Teile von Boxen Strukturen lassen Klassenhierarchien aus Texten natürlicher Sprache aus strukturierten Daten ableiten kann niemand bestehende Ontologie mit Entitäten aus solchen Dokument Corpora automatisch für unterschiedlichste Herangehensweisen und Verfahren wieder genutzt werden und genauso ist wichtig ist natürlich auch dass man die Möglichkeit hat unterschiedliche und Ontologie zusammen zu verwenden das das aufeinander Teile davon abzubilden zu mischen zum deutschen quasi neue Ontologie daraus zu bauen beziehungsweise auch die eigene und die mit Ontologien in Bezug setzen und darauf zu mir und abzubilden womit wollte weitermachen wollen ist
der Punkt Delta und Semantik
Application und insbesondere der liegt etwa steht heute
auf dem Programm also etwa sollten sie alle schon mal gehört haben spätestens dann als vor angefangen haben mit der die
Wikipedia und zu beschäftigen und Daten über den Nacken angemerkt es gibt natürlich auch von dieser die Mitglieder aus Querverweise irgendwo in dieses wird der Daten dieses Wort auf der Tag und später ist jetzt seit einigen Jahren sehr prominenter Begriff mit dem dass man die wird und Semantik Web-Technologien auch popularisiert oder stark popularisiert werden das ganze hat nur relativ schwache Semantik erstmals ist aber ausbaufähig und wir werden uns mal anschauen was sich hinter dem Begriff verbirgt hier sehr einfach effizient arbeiten kann welche Werkzeug gibt und was man damit machen kann oder aber zunächst einmal von einer ganz anderen allgemeinen Fragestellungen aus die wir
eigentlich schon kennen es geht und wie man irgendwie Informationen zu irgendwelchen die kommen würden überhaupt daran bin ich Applikationen bauen wollen die übers Netz selbständig in der Lage sind sich Informationen über zu beschaffen müssen wir uns darüber natürlich Gedanken machen müssen das natürlich auch so tun was wir und uns überlegen wie machen wir sind sie selber bekommen wird irgendwie an Informationen noch ein grundlegendes wichtigste was wir brauchen um uns über irgendetwas Informationen beschaffen zu können ist bei als auch vom und Information über Buch beschaffen beziehungsweise beim Film oder was noch komplizierter ist über ich abstrakten Konzepte nicht mehr in die Hand nehmen kann das Problem um irgendwelche Informationen über diese Dinge zu finden muss ich wissen wie ich sie identifizieren kann das heißt ich brauche natürlich im Namen der Dinge unendliche und schlage einfachen wo auch immer unter dem jeweiligen Abend diese Dinge nach das heißt ich muss wissen wie diese Sache nicht gerade hier suchen wollte oder macht sich für die ich Informationen finden wollte überhaupt bezeichnet also dass es beispielsweise Buch das hatten titelt das 1. Wort das über zu viel der als der dort der und hier auch der Vergegenständlichung von sehr abstrakten Begriffen die man eigentlich gar nicht sieht nach Mensch also da muss natürlich wissen wie der Name ist wobei von danach Schlag in Zeiten in denen es noch nicht das Internet ab das heißt jetzt noch ganz klein war wenn nötig gegangen wird was wissen wollten sind normalerweise wenn die bildete kann gerade nicht da aber um diese Fragen konnten zum Katalog gegangen und wollte wissen ob die Befürworter nachschlagen muss man das was dazu und wenn man Glück hat aber genauso alte Karteikarte gefunden auf dieser Karteikarte stand dann zum Beispiel darauf dass man dieses Buch auch unter anderem Titel für findet zum Beispiel schöne neue Welt wo ein Roman der Zukunft oder Bakterien und wird ein Roman der Zug also genau das was uns da quasi gesagt worden ist von wodurch eigentlich nachgucken soll das ist aber erst auf eine andere Stelle auf den anderen aber also wird ein kontrolliert Vokabular gebraucht das mit quasi alternativ Namen hier zur Verfügung stellt und die ich im Katalog nachschauen ob und wenn ich dann letztendlich bei der Karteikarte angekommen die mir die Informationen über das gesuchte Werk gibt dieser dann ungefähr so aus wie dieses Jahr stand darauf befürwortet geschrieben von Sachsen dann steht da noch ein Verleger also wo ist das ganze erschienen der 47. Band dieser Herbert Albertus Kontinente Library Albatros Verlag Hamburg von 7 50 Seiten haben 8 Zoll große Teile des Band und erschienen 1933 also was ich oben auch mitgelieferte bekomme sind Informationen über das was ich eigentlich Suche also das was wir und Metadaten versteht und dann sehen sich und noch sowas wird das kleines 2 1 2 5 0 6 3 4 5 4 8 und gültig ist das sowas Personal Signatur besteht beispielsweise ich finde das von mir das Gebäude 2. Etage zwar Raum 2 1 Regal Nummer 2 5 0 6 und da unter der Stelle 3 4 5 4 8 also das ist nichts anderes als wo finde ich die sowieso außerdem tatsächlich das ist auf der einen Seite die volle und auf der anderen Seite Lockheed also so etwas Ähnliches wie eine URL Wert nur quasi jetzt noch zu Fuß und in der Mitte des guten Roman des Parlaments Land gegangen haben jetzt natürlich das Internet was machen wir dann schlagen und natürlich im Internet nach was wir wollte wissen wollen dazu können wir beispielsweise und können einen weltweiten Videotext Katalog Anfrage also es gibt jedem wortkarg finden Sie bei Google oder auch jetzt gucken ich kann dass man zeigen und dort wo man nach 12 Uhr suchen ein zurück
muss ich Bildschirme synchronisieren müssen das Einkommen probieren ob
und kann hat eine Verbindung von der Wand und und und und und so wird
hier und dort Christian sondern
Christian also und da kann man jetzt nach diesem Buch suchen sucht nach 12 geworden sind und ich sag mal so suchen damit für das altbekannte
Probleme nur von alles hat viele tolle haben aber insgesamt 10 Tausend 164 weltweit irgendwelchen gegeben dass eine ganze Menge bin ich jetzt mein schönes eines orangefarbenes Heftchen Suche muss ich sehr sehr viele durch lesen und suchen also das heißt ich muss eigentlich mussten bis genauer spezifizieren sicher das war von Albatros Verlag was haben was sonst nur 33 dann finden Sie auch das was sie sucht haben genau dies Buch das kann man die angegeben ist ganz nett und ich immer gezeigt
haben jetzt dass man durchaus in der Lage festzustellen ob ich hab ich wieder die Metadaten gekümmert ob wirklich mit natürlich müssen das ist ja nur Informationen über diesen Gegenstand der Gegenstand selbst steht natürlich nötig und hab ich hier in diesem wortkarg das ist ganz wird die Möglichkeit anzugeben wo ich bin nicht in Potsdam muss natürlich noch schreiben nicht Potsdam in Ohio damals wahrscheinlich Glaubens und Potsdam glauben sagt man Suche dort bis und wir sind bei uns gibt es nicht aber in Berlin steht Exemplar 22 Kilometer von August Square in Magdeburg zwar alle gibt es ein Leipzig Dresden und in Wolfenbüttel und dann auch auf 3 weiteren sollten also da kann ich dann tatsächlich auch das in der realen Welt weil jemand so somit war und den Text bestand hier tatsächlich auch katalogisiert hat also der Witz ist ja ich muss wissen wie es heißt es dann schlage ich welche Informationen über dieses mit Hilfe von geeigneten nach dass keine Text Katalog das kann das Internet bevor ich dorthin geführt werden von den tatsächlich diese Resorts tatsächlich alles in der Welt existiert ok aber nicht jeder synchronisieren und und und
und ja einfach mal so also mit 6
Katalog die andere Möglichkeit wenn ich nicht exakt das Buch finden möchte sondern nur Informationen über dieses Buch dann die ich natürlich im Internet bei Google einer Suchmaschine wurde landet früher oder später irgendwann einmal bei der Wikipedia sollte nicht noch ein wenig in der englischen Version lesen möchte sonst wird die abgeschaltet wollte nur haben aber das ist ein anderes Thema ok da bin ich Informationen finden will ist der Weg als der ich die über eine Suchmaschine und bekommen dann welche Informationen an die irgendwo auf der Welt mit Hilfe von wird sondern publiziert veröffentlicht werden und auf meinem Browser was auch soviel heißt Informationen sollte nicht wir sind dann sind sie wenn überhaupt nur sehr sehr schwer zu finden zumindest von zu Hause aus üblicherweise funktioniert also wir haben dieses mehrere Protokolle beteiligt mehrere Standards beteiligt sie haben die Daten oftmals ein Datenbanksystem stehen dann gibt ein Content-Management-System das über 100 zu erweitern entsprechend diese Daten aus der Datenbank zugänglich macht ich hab dann meistens so sucht Oberfläche der navigieren kann und die Daten werden dann als HTML-Datei via HTTP Protokolle schön war das funktioniert für uns Menschen müssen wir auch Marktabsprache hat ist für den Menschen bestimmt nicht für die Maschine ganz einfach deshalb weil diese Seite und die Formation die welches durch den Menschen mal interpretiert werden muss bevor sie verstanden werden kann und das Interpretieren von Informationen das Wissen noch ganz am Anfang von dieser Vorlesung auf automatische Art und Weise ist alles andere als einfach und ich müsste eigentlich müsste natürlich um das angestellt um das für Maschinen zu erschließen könne oder verfügbar zu machen semantisch ist das heißt wenn ich jetzt hier und versuche Informationen über irgendwelche in Erfahrung zu bringen auf automatisierte Art und Weise gibt es zwar vielleicht sehr sehr viele Datenbanken die allesamt über irgendwelche Content-Management-Systeme oder wird aber dann tatsächlich zugreifbar sind aber alle quasi sind von einander verschieden auf jeden greift eine eigene Applikationen zu die Schnittstellen sind komplett unterschiedlich selbst welche Art dies zur Verfügung gestellt werden muss ich dann für jede einzelne dieser Datenbank vielleicht ein unterschiedliches ab wie Bedingungen können also Sie man sie haben sie haben Google sie haben aber am also und alle haben natürlich welche Datenbanken beziehungsweise hat natürlich einen Suchindex und die den natürlich nicht an ihre Daten weil sie mit den andern die auszutauschen ist Update wird der Vorteil dass diese Informationen wieder unter die möchten das natürlich nicht sondern dass man deren Kapital als deren Daten Art und Weise nutzt das sind diese Sachen wenn überhaupt zugänglich Musik reglementiert zugänglich und natürlich nicht alle über eine gemeinsame Schnittstelle sondern alle über exklusive Schnittstellen das heißt wenn ich Daten aus diesen vorhandenen Datenbanken der Art und Weise nutzen möchte und ein sogenanntes erstarrt bauen möchte muss sich dann entsprechende der abgewiesen benutzen und für jede dieser Applikationen oder Datenbanken die ich verwende gibt dann wieder ein eigenes dass sich entsprechend dann hier ein Mensch berücksichtigen aus Problem bei der Sache ist natürlich nicht das statische wird das wissen wir alles ändert sich irgendwann und irgendwie das heißt ich muss auch ein sehr sehr vielen Stellen eine Anwendung Schrauben sobald sich etwas an diesen Schnittstellen das heißt letztendlich wir haben zwar sehr sehr viele Daten und Informationen im Netz aber letztendlich voneinander ab gestürmt hier
sie dazu sind Mauern zwischen den einzelnen Applikationen aufgebaut über man erst mal drüber klettern muss in Form von ich muss ein neues API einer Art und Weise nutzen und das ist umständlich und der natürlich daran dass man diese Daten irgendwie zusammen benutzt und vielleicht auch mehr Wert auf einfache Art und Weise hier im großen Maßstab erzeugt oder Lösung haben wir schon kennen gelernt mit Hilfe
semantische Technologien sollten eigentlich in der Art sei diese Daten so zu veröffentlichen dass jeder darauf zugreifen kann mit einer einheitlichen Art von Schnittstelle das heißt man kann ein Großteil dieser Daten als semantische Daten inklusive semantische Metadaten quasi veröffentlichen können semantische Metadaten zu diesen Daten veröffentlicht und kann dann ein riesengroßes Geflecht Wirkweise Wissensnetz Aufbau und das über eine einheitliche Schnittstelle zugreifbar ist nicht ganz einfach über das HTTP Protokolle und Divisors selbst liegen auch in einem einheitlichen Standard for beispielsweise kodiert als RDF Drittel und die kann ich dann entsprechend weiterverarbeitet das also ist quasi lange Rede kurzer Sinn ich für öffentliche frei verfügbare Daten im Netz mit Hilfe von uns bekannten semantischen Technologie und sorge dafür dass das ganze vernetzt ist und öffentlich zugreift dann bin ich in der Lage die Information über diese Dinge auch zu finden wir ganz am Anfang und so fuhr das Problem das Verhalten Information für diesen 3 Dinge zu finden ich muss nur eine Referenz Adresse Datenbank Enzyklopädie oder was auch immer aber in der ich Daten über genau diese sowieso zu finden und beispielsweise finden wir natürlich über nur der was der die Mitglieder genau so etwas zu den Blauen Engel in die üblicher oder auch zu dem Konzept 8 müssen nur jetzt endlich Wüstenwinde Informationen darüber abgreifen wollen wir heißt das kommt der Name und dann sind wir einfach in der Lage quasi Hilfe semantische Technologien strukturierte Daten des öffentlichen Datenbank gibt es gibt quasi zu publizieren Verbindungen von einer Datenquelle zu anderen eventuell zu schalten und sorgt so auf diese Art und Weise und eine einheitliche Schnittstelle viele unterschiedliche Daten Quellen miteinander zu verbinden und quasi dort auch immer wieder in den Sinn zu überzeugen dass die Summe dieser Sachen eventuell mehr wert ist als die einzelnen ok das also zum Prinzip das steckt das machen wie funktioniert es natürlich auch wieder Richtlinien des des ist dabei vorgeht und das wird zusammengefasst unter der Bezeichnung lehnt diese Prinzipien schauen uns als nächstes Mal der Begriff selbst ist auch schon wieder auf
5 Jahre 6 Jahre alt gibt auch alles so an der verbunden der zurück auf dem und das Leben der mal gesagt hat oder gleich von Anfang an bei der ersten weil bei der Konferenz war das nicht der Fall hat einen Vortrag gehalten sagte der eigentlich sind da wird nicht nur Dokumente mit von Vernetzung Dokumente beschreiben eigentlich der also haben Informationen über bestimmte Dinge aus der realen Welt genau so ist es auch hier ist die Daten über diesen Daten der dann entsprechend Informationen nochmal Metadaten und bilden dann ein solches wird auf etwa und um ein solches Netzwerk aufzubauen zugreifbar zu machen diese Methoden was gerade gesprochen haben gibt es eine Menge von so genannter Respektes ist ein solche strukturiert Daten nach diesen lehnt etwa Standards entsprechen und die Grundannahme dabei ist einfach oder die Prämisse von der Mann aus dem man sagt also diese Daten werden die sind natürlich für mich umso wertvoller je mehr sie mit anderen Datenquellen irgendwie verknüpft das heißt dadurch werden sie auf der einen Seite natürlich gestärkt wenig Gleiches mit Gleichem von verknüpft nicht mehr Informationen zu einem den 2. das Entität und ich bekomme natürlich einen bei einem Datensatz und vielen anderen aus erreicht werden kann und ich eventuell und dadurch dass meine Daten zugegriffen werden hier auch einen geldwerten Vorteil vielleicht Ausschlag kann Master entsteht durch diese Vernetzung der Daten das es so Datennetz wird auf etwa und auf einen kurzen Nenner gebracht kann man sagen über Prof. Peter ist und baut auf der einen Seite der klar und dann ohne und wobei es geht also drum Datenmodell für die Daten und in einer Art und Weise wie man sie ansprechen soll also eine Benennung der und das ist eigentlich alles was dahinter steckt die Prinzipien gibt es jetzt nachdem man diese Daten der veröffentlicht auf der einen Seite natürlich müssen wir allen Dingen von den Gesprächen nahmen geben das wissen wir schon das macht man mit Hilfe von wo es also nicht nur der Dokumente sondern eben alles Mögliche was sich Netz aber die Webseite Albert Einstein oder auch die Beatles um alles muss in einer Art und Weise eine der Adresse dabei muss er aber auch klar sein man muss unterscheiden zwischen der Adresse des eigentlichen Gegenstandes und Informationen über diesen Gegenstand und die Information kann auf der einen Seite maschinenlesbar seien Sie kann auf der anderen Seite auch für den Menschen lesbar sein das hatten war das mal kennengelernt ganz am Anfang als wir uns über das Problem der Jurist unterhalten was man muss irgendwie klar trennen das ist jetzt das Gegenteil von dem ich rede ohne dass es Informationen über das von dem ich wissen natürlich dass wir in der menschlichen Kommunikation mit Repräsentanten der jeweiligen Gegenstände auf die wir uns Beziehungen kommunizieren können und genau so kann man das natürlich dann auch hier wird und mit Maschinen machen also wir brauchen u. wichtiges dass sich diese URIs wir differenzieren kann das heißt ich kann darauf zugreifen auf diese Dinge auf Informationen über diese Dinge die ich beschreibe mit Hilfe eines einfachen öffentlichen Protokolls nämlich mit dem Art und IP-Protokoll über Web-Server Port 80 sollte bei den meisten oder bei allen eigentlich offen zugreifbar sein so dass dort also keine zusätzlichen Hindernisse durch irgendwelche Unternehmens Feuerholz oder anderen Sicherheits Restriktionen die gebe also über hatte HTTP ist das heißt nur jetzt hab ich dann die Möglichkeit direkt auf dem zuzugreifen Informationen über die und um das zu trennen das Ding selber und Informationen darüber menschenlesbar maschinenlesbar am hat man 2 Möglichkeiten auf der einen Seite hat auch schon kennengelernt macht das über konnten schön dass diese genannten 3 0 3 Jura ist am da kriegt man normalerweise den wir uns gut 3 0 3 sie aber zurück widersetzt und gleich noch mal an oder Arbeiten über Ruhe ist wobei der eigentliche URI also nur aber nicht beschreibt und das Fleisch nie quasi dann entsprechend auch mit Informationen oder der Informationen über mich in der Zeit die einfache Art und Weise also bin ich jetzt beispielsweise die und Informationen unter 2 unterschiedlichen Adressen Opfer eine Uhr hinterlegen möchte einmal maschinenlesbar einmal für den Menschen lesbar das kann ich beispielsweise über den HTTP der steuern indem ich quasi sagen was ist denn das Datenformat dass ich akzeptiere als Antwort von der dazu aber entweder von XML oder auf der anderen Seite Text hat sich für den Menschen sei und dann sieht das normalerweise so aus also ich frage irgendetwas vom wird aber ich habe also ein geht und sagt man erzeugt wird es Application er der Justiz dann sagte wird aber guckt auf ok sagt unter der Adresse kriege ich da gab es noch nicht zurück und du müßtest bitte dort nachschlagen wo ich meine Daten abgelegt habe also sendet diesen hatte die Trikots 3 0 3 ist sie aber zurück Plosive dieser logischen und dann kommt ein neuer geht automatisch vom Client hier und dann wird an der korrekten Location diese Information abgefragt und dann mit einem HTTP Code 200 entsprechen als ein Code ok zurückgeschickt und dann sieht das Ganze so aus ich frage quasi ab jetzt bei der mit einer Uni wahrscheinlich in der Wikipedia dort ist und was sich dann zurückbekomme ist entweder wenn ich die für den Browser Menschen akzeptierte Variante haben möchte dann bekomme ich hier bin die der verspätigt zurück und bekomme ich einfach zu lesen sollte diese Grünen Seiten die sich schon kennen und auf der anderen Seite wenn ich jetzt schon die Daten Variante haben möchte dann bekomme ich tatsächlich dann bei der Daten zurück die liegen aber wieder woanders die liegen unter den Mitglieder dort Orks löscht das Licht und an die Adresse des Dings sich der tatsächlich ansprechen möchte gut also URI URI musste differenzierbare sei und wenn man diesen URI die referenziert dann sollte dann natürlich nützliche also just so vom erschwingliche steht stehen maschinenlesbar und zwar mit Hilfe der Standards die wir schon kennen codiert also das heißt das Ganze soll irgendwie RDF hinterlegt sein die auch mit Hilfe von Barke abgefragt werden können oder soll 1 Enzpark und sein bei dem ich fragte Abfrage entsprechend hier stellen kann und der die 1. dann das universelle Datenmodell nachdem diese Daten im Netz dann tatsächlich codiert vorliegen Referenz war sind sollten dann auch alle Entitäten innerhalb dieses RDF Graphen sei das heißt man sollte um möglichst gute später Ressourcen schaffen zu können einige RDF Konstrukte wie wir kennen formal Replikation weil man da so schön Schleife oder können bzw. das bei der Interpretation problematisch werden könnte genauso Sommerkollektion von und Container entsprechend vermeiden und insbesondere unbemannte lenken laut also sollte alles von außen ansprechbar sein unbekannt lenken und die sind also nicht referenziert war es Sundermann sollen Informationen der Daten Weise dort abgelegt hat ist wichtig weil es nicht allein der sondern es soll ja letztendlich werden gesagt die Prämisse ist mit vernetzter
das Ganze ist vernetzter meine Daten sind desto mehr sind sie wieder das heißt ich muss letztendlich auch Links zu anderen Ressorts mit auf über meine Daten und dazu gehört auf der einen Seite die sogenannten männlichen längst also ich gebe quasi Links auf externe Ressourcen an mit denen jetzt meine eigenen Ressourcen wie in Zusammenhang stehen das ist eine Variante die 2. Variante ist die es gibt die so genannten Ida die die längst natürlich gibt es die Entität die ich jetzt beschreibe eventuell auch noch in irgendwelchen anderen Ressourcen und Datensätzen Netz und entsprechende auch ist es oder auch über den Platz längst auf andere Datensätze die dann sagen dort ist nochmal genau dasselbe mit hoffentlich konsistente Information so dass keine Inkonsistenzen entstehen können und dann gibt doch so sogenannte Vocabulary längst der geht es darum dass irgendwo eine Definition oder weitere Beschreibung genau meine Entität vorliegen kann also diese 3 unterschiedlichen Varianten von links unterscheidet man und die werden hier da bereits genutzt vom und zum Beispiel eine ganz einfache Sache also hier wollen ganz kleinen Ausschnitt aus der 1. diesmal mal wieder als XML sie Realisierung was wir sehen ist also einmal ist hier von mir selbst die Rede als auf Personen und ich hab natürlich von der Homepage und ich bin irgendwo ja bei Potsdam sollen dort steht das kann man sich als Graf wieder anschauen also ich habe ich ich hab hier die vor also das ist für mich hat man aber das ist nichts anderes als eine Bar und irgendwo in der Nähe von Potsdam und Potsdam selbst hier stammt aus einem anderen Datensatz sieht hatten anderen Präfix vorne dran soll also die Wikipedia bezeichnet ist nicht mein lokaler Datensatz was sind sehr gemacht wird um jetzt genau diese Ressource zu referenzieren und man kann eine Art der Abfrage entsprechend machen nach dieser Ressource die Mitglieder Potsdam und bekommt dann entsprechend interessante Informationen zurück wie beispielsweise die Einwohnerzahl von Potsdam oder das Potsdamer zur Kategorie stellte in Deutschland gehört und ähnliches und ich kann jetzt und kann quasi davon ausgehen noch viel viel weiter sinkt Tag darf auch innerhalb der dieser geht ja so zu durchforsten und würde dann heraus dass es auch noch andere Städte gibt oder so die in einer Art und Weise mit Potsdam zusammenstellen ist falsch angegeben dass wir nicht drüber zu sieht ist Mitarbeiter auf also Berlin ist der Stadt in Deutschland und in der 1. in Deutschland sollte das würd ich bekomme wurden diese Prinzipien über gerade kennen gelernt haben Arbeiter wendet dann entsteht also was für das was wir jetzt haben dieses so genannte wird auf etwa das ist die so genannte liegt etwa auf die man seit 2006 2007 quasi das hat ganz klein angefangen rund um die Mitglieder also ist der Zustand der das Wort auf das Jahr 2007 war sie da ist noch relativ wenig drin des ganzen mit der wir sehen Paar interessante Datensätze noch mittlerweile auf ist Mitarbeiter kennen Sie doch verfehlen Vokabular Welt der von Ihnen hat noch nie was von der DDR gehört in wenigstens 2 3 4 5 ist eine bibliographische Datenbank in der sie Publikationen Arbeiten aus geht also Forschungsarbeiten aus dem Bereich der gesamten Informatik quasi zugreifen können das ist wunderbar schön nämlich zum Beispiel mit der Wikipedia ist das ganze oder auch mittlerweile mit der so genannten weil die Ende der Normdaten der Teil der Deutschen Nationalbibliothek und da ist quasi jeder Autor irgendwie verlinktes gibt Informationen zu dem Autor dann in der Datenbank der Nationalbibliothek in diesem Raum Dateien und es gibt was die Daten was hatte den publiziert und wenn das in der Informatik ist dann ist das in der DDR Project Gutenberg des Mitarbeiters kennen Sie das ist ein altes den Digitalisierungsprojekt dann sind hier über Zensus also Volkszählung stark der USA dabei die und war dabei als geht es um geographische Entitäten Orte und Regionen die geographische haben sind sie Daten dabei aus Musik bremst zum Beispiel also so hat das ganze geben wie angefangen also relativ klein von November sieht man es hier ganz Menge außenrum mit dazukommen ganz wichtige Sache hier wie sie hat es angefangen dazu zu kommen das wurde dann auch immer mehr von diesem BBC Datensätzen wieder Stückchen weiter ein Jahr später sieht man noch immer noch im Jahr später 2009 wird das Ganze schon so groß dass man die einzelnen Sachen drin schon kaum mehr lesen kann im vergangenen Jahr 2010 sehen sich einige S sind mit nach wie vor die die großen sehr sehr viele Datensätze und jetzt die letzte Version der gelingt später aus wurde veröffentlicht im letzten September also kurz bevor unsere Vorlesung eingegangen ist mittlerweile ist als eine ganze Menge drin wenn man sieht das 200 95 verschiedenen Datensätze die abgebildet sind wieder steht eine große Daten Kollektionen insgesamt haben bei 51 Milliarden werde erst für die über 500 und 4 Millionen links miteinander verbunden ist Dreh und Angelpunkt der wird auf etwa ist die die Wikipedia die wir schon kennen noch mal kurz zu Wiederholung die die PDS nichts anderes als die semantische Variante der Wikipedia und dazu werden aus dem Wikipedia-Artikeln die sogenannten am Jahresende diese schönen Boxes Infobox es werden wir genommen und werden als die sind immer nach dem gleichen Art und Weise aufgebaut sind also sehr schöne HTML Tabellen und diesen HTML Tabellen wie sie hier sie sehen Sie immer für eine Kategorie von jetzt beispielsweise für stellten und stellte diese denselben Aufbau als das geht los mit am die Stadt wird welches Bundesland was steht noch drauf um kommen in welchen Landkreises in welcher über dem Meeresspiegel liegt die Stadt welche Fläche t-1 wie viele Einwohner hat sie usw. steht in derselben Reihenfolge diesen Tabellen und die kann man eigentlich wunderbar Parsen wenn man sich das kommt sind dieser die Gesundheit steht das auch wunderbar drinnen das kann man mit sehr sehr einfachen Parser herauslesen und kann das strukturierte Daten ab und kann das Ganze dann infizieren und was rauskommt ist in dem Sinne nichts anderes als das was sie kennen die die der mit diesen strukturierten Daten als RTF-Datei zugreifbar über einen entsprechenden so dann entweder Browser diese für den Menschen lesbar Variante grün hinterlegte liefert oder die dazugehörigen RDF stark donnerstags damit machen können ist ganz einfach Wir können wir gehen können auf diese Daten zugreifen dir zum Glück fast alle auf diese diesem Dreh und Angelpunkt der Wikipedia differenzieren und können so genannte mehr abzubauen indem wir die und unterschiedliche Datensätze aus dieser Tag laut mit einander quasi werden und zwar über sehr sehr einfache Schnittstellen im Gegensatz zu Wertpapier ist haben sie jetzt über die Bett hat den Vorteil sie haben ein ganz ganz einfachen Zugriff über HTTP immer genau über denselben Porzellan immer dasselbe Datenformat
Datenmodell drunter über RDF und sie haben die Möglichkeit weil sie auch noch weiter genau dieses Daten Universum zu erforschen und zu explorieren über diese ganzen links die dann drinnen sind diese Links sind die Möglichkeiten Navigation die werden von Suchmaschinen oder von genutzt jetzt versuchen können dieses ganze wurde auf der dazu Chor und man kann hier sehr sehr schön Besuch Funktionalität mit realisiert wenn diese Daten veröffentlicht nur ganz einfach also entweder nativen Publikation über entsprechende wagte Punkte also man kann geben kann beispielsweise auf eine Datenbank mit war es aber mit drauf dann kann man sich entsprechend diese Daten da hier semantische Art und Weise dann auch noch veröffentlichen kann der Baum existierender Anwendungen herumliegender gibt liegende gibt es einige ist wie sie sind die man verwenden kann und es gibt natürlich auch das Link ob entdeckt abrutsche auf deren Seiten genau diese Statistiken zu aktuellen Tag oder auch veröffentlicht werden und dort das Verzeichnis ein Verzeichnis aller bekannter Datenquellen sie können Informationen über diese Daten können sich vorab schon mal einholen überlegen was kündigten da Daten Weise miteinander verbinden was ist denn da alles drin wie sie die den aus und das kann man dort an zentraler Stelle nachschlagen das heißt wenn ich meine Daten irgendwo veröffentlicht habe als später sollte ich irgendwann auch hier und sollte sich dort und der linken Gruppen der damit eintragen anmelden damit anderen nicht dann in sind auch für das heißt sind natürlich auch Daten vom hat mit dieser laut dringend um unsere Video Suchmaschine Nobistor falsch auf von der wird haben die ist schon seit 2 oder 3 Jahren sind mittlerweile schon mit drin das es auf den Webseiten deutet er DFA entsprechende veröffentlicht zu einem Ergebnis die sie dort in der Suche erzielen und diese Daten sind natürlich auch über das Debakel und erreicht und da haben wir die natürlich angemeldet und das heißt wenn sich diese riesengroße laut mit 90 Datensätzen ankucken wenn sie auch irgendwo ist auf man kann sich diese Daten speziellen in Browsern auch ankucken weil wir hatten normalen Browser wieder bekommen wir die Text Variante für den Menschen oder wir können dann auch RDF anschauen eines der formalen kann das auch bisschen schönen strukturiert anschauen also es gibt hier Browser die in der Lage sind quasi strukturiert ja der Daten schön anzuzeigen auch diese Links die die sich drehende und auch externe Vokabular entsprechend mit anzuzeigen der älteste und bekannteste von den ist der weltweit der stammt direkt und das seiner Arbeitsgruppe IT können Sie sich mal angucken die längste hier in der der Präsentation mit drin sind die sollten alle den dazugehörigen PDF quasi so verlinkt zeigen dass die alle benutzen kann zeigt dass es auch interessant und Browser Disco Browser funktioniert meistens nicht von der FU Berlin können sich mal angucken also da gibt es einige interessante Browser mit denen man versuchen können quasi lehnt Webseiten zu visualisieren dass es gibt auch Plug-ins entsprechend für Firefox oder andere Browser um sich dann später zu betrachten genauso viel Sonne ganze Reihe von Suchmaschinen das heißt wenn sie nicht genau wissen Sie suchen den Datensatz oder Entitäten und wollen quasi das Rad nicht noch neu erfinden sondern von ihre Applikationen mal schauen ja der von diesen zwar Datensätzen hat die Informationen über weiß nicht was ich wohl durch das was ich hier veröffentlichen möchte dann gibt es natürlich auch Suchmaschinen die jetzt nicht nur Web sondern auch was auf später direkt suchen und dort sind sie in der Lage quasi Datenquellen und Theologie RDF Daten zu finden also zum Beispiel zugelassen ist wie es ist die Semantik wird dort den sind Nietzsche oder für das sind alles um Suchmaschinen die auf dem der Datenbestand arbeiten und die neueste von denen sie mal die basiert auf sie Nietzsche das kommt vom Theorie irischen Institut das sich zu meinte der Technologien befasst sich am das ist ein sehr interessanter Browser der mit dem sie in der suchen können dass da können Sie mal versuchen sich mal quasi den Namen unserer Vorlesung oder ähnliches einzugeben finden Sie dann interessante Informationen alles was in einer Art und Weise wurde auf Bild über diese Sache wie sie das abgelegt ist also probieren Sie es einfach auf mehr andere sehr schöne Visualisierung auf der Basis ist die Visualisierung von von mir von der die DBP der versucht haben zu visualisieren also das ist quasi sondern Suchmaschine für die die Bilder und Sie können die die abbrausen mit Hilfe einer facettierten suche das heißt Sie haben ja an der rechten Seite dieser Suchmaske haben Sie die Möglichkeit falls die Suchergebnisse einzuschränken nach 1 einzelnen Klassen oder Eigenschaften Properties außerdem der das müssen so einfach mal ausprobieren lassen auch eine sehr schöne Art und Weise quasi diesen riesengroßen Datenbestand strukturiert zu erforschen ob die also war ich möchte jetzt meine eigenen Daten irgendwie ins Netz stellen übernimmt später verfügbar machen das heißt sie müssen auf der einen Seite dann natürlich offen verfügbar sein wenn das Open Delta sein soll ansonsten ist das natürlich später aber nicht Gruppenbild wenn ich das ganz die proprietär und geschlossen machen und Open Data hat das W3C so ein schönes Fall ist es daher Schema eingeführt die nicht nach welcher Art und Weise ich meine Daten hier veröffentlichen mich rühmen kann dass sich so und so viel stand bezüglich der habe also einstellen bedeutet ich hab irgendwie im Netz veröffentlicht allerdings total egal in welchem Format aber es ist wie auf das heißt ich kann auch letztendlich und den schlechten es denen eines Ausdrucks eine EXE-Datei ins Netz gestellt haben dann sind die Daten haben zumindest schon mal den Gruppenbild Status ein Stern auch wenn kein etwas mit einfach wenn es wenigstens in einem maschinenlesbaren Format abgelegt ist also tatsächlich eine EXE-Datei und nicht nur das eine EXE-Datei der vor ausgedruckt waren habe ich 2 Sterne und wenn das Ganze dann in einem nicht proprietären Format ist Satz in einem offenen Datenformate wenig anstelle des Ex-Soldaten Datenformats CSV Format für meine Daten war umso besser dann ist es auch auf verarbeitbar dann ist zumindest schon mal hat 3 Sterne hat natürlich alles und nichts mit man zu tun das ist gut der nächste Stern kommen dann dazu wenn tatsächlich mich jetzt überwiegende und Semantik Web-Technologien zum Einsatz bringen also wenn ich beispielsweise hat er für das Debakel hier entsprechend noch mit öffentliche und der letzte Stern der 5. kommt dann dazu wenn ich auch hier die und meine Ressourcen mit anderen Ressourcen aus den Tag laut hier entsprechend noch mit verbindet dann bin ich in der Lage komplett alle 5 Sternen zu bekommen und das Maß voll zu machen wenn sich das auch Gruppen Seite des W3C ist ich glaube die machen das meiste Geld damit den sie diese passen verkaufen mit diesem 5 kann man also dort bestellt oder wird von uns mal anschauen nachdem wir wissen wie es funktioniert also nimmt Delta quasi ins einstellt und erzeugt wie sieht das Ganze dann tatsächlich aus später nur was machen die denn so die die Daten die tatsächliche miteinander verbunden sind und im Netz aber dazu werfen wir noch mal einen weiteren Blick auf
die linke Tag klar das sind ja nicht gesagt 295 Datensätze und hier gibt es auch diese schöne farbige Versionen indem sie die sind ja gar nicht so dumm angeordnet auf der einen Seite diese Kreise entsprechen in ihrer Größe auch in etwa quasi der Anzahl der Datensätze die der jeweils in einem solchen vorhanden sind und die Position der Datensätze ist so gewählt dass gleiche Kategorien die Zusammenfall links oben angefangen dann sehen wir oben in Blau das sind alles Daten die das mit Medien also die etwas mit Medien zu tun haben zum Beispiel Music Bremens ist da dabei dann bekommen Sie bitte Informationen über alle möglichen Künstler über deren Veröffentlichung nicht nur die alten sondern auch bis runter auf sorgen sie das interessante Informationen oder dort sind auch die Miliz BBC und und ähnliches lasst es ist ja auch mal drauf gut also das alles hat in der Art und Weise mit mit Daten zu tun dann auf der rechten Seite beim rötlich gefärbt das sind alles Datensätze bei dem User General richtet Content dabei ist also die tatsächlich vom Nutzer mit generiert worden sind wie beispielsweise Text Kommentare und so was gibt's auch Datensätze wieder veröffentlicht worden sind findet man auch unsere Suchmaschine Jurist wobei viele von Daten die dort publiziert werden auch diese General der Konzern das sind in der Lage Video Daten zeigt bezogen zu wecken und das veröffentlicht wird das wurde das Ganze und dem Bereich General Content entsprechend mit einem geordnet auf der anderen Seite sind diese Videos die dort eingestellt sind offen und frei verfügbar werden auch von den Nutzern eingestellt das hat noch immer so kommt dann findet man dort auch Sachen wie beispielsweise Flickr Information also zu Flickr gibt eine interessante Geschichte auch das Leid der wo unsere ganzen Präsentation also die die die Hand aus dem von abgelegt sind 2 ist auch hier mit vorhanden und man findet dann auch Informationen über das Leid der Ressourcen das heißt auch uns Vorlesung hier in dem Bereich immer weiter nach rechts dann sind wir hier quasi auf bei den Grünen Quadranten ist relativ groß da sind alle möglichen Datensätze die mit Bibliografie zu tun haben also Veröffentlichungen Publikationen da finden Sie alles Mögliche wie beispielsweise die DBLP von der bevor gesprochen aber dort sind auch große prominent die die das sind die Norm Datei von den nicht gerade gesprochen habe die bei der Deutschen Nationalbibliothek hinterlegt sind und in denen sie Informationen zu allen möglichen Autoren finden Sie Informationen zu Organisationen finden in indem sie Informationen zu Schlagworten und anderen Sachen als auch Daten die auch von Menschen Curtis gepflegt werden zuverlässig auf die ganz andere Seite am linken Rand des großer Bereich eigentlich der größte Bereich von der vielleicht auch noch von der Anzahl der Datensätze dass die sogenannten auch daran dazugehören von ganz von Anfang an also diese Daten von US-amerikanischen Volkszählung und auch immer mehr Staaten sind hier dabei allen voran die britischen britische Regierung zum Beispiel die hier viele viele öffentliche Daten permanent Bilder aus dem Bereich der öffentlichen Verwaltung der Regierung hier veröffentlicht also der letzten Jahren am stärksten gewachsen doch mittlerweile den meisten Raum ein und das ist auch ganz interessant was sich der Umzug die gelben Daten sind auch wieder ganz wichtig nicht ganz so groß hier dieses fragt man dann zum geographische Informationen ganz wichtig da drinnen sind auf der einen Seite blinkt hier und die und sind solche Sachen das heißt dort findet man Informationen zu Geographischen Entitäten und Referenz hier auch alle untereinander vernetzt immer weiter nach rechts wieder leicht und Bereich das sind die genannten Costume Datensätze zu denen gehört natürlich auch ganz damit um die der und alle Sachen die jetzt nicht nur zu einem bestimmten Fachgebiets gehören sondern auch zum Teil nicht wie abbauen produktives versuchen alles Mögliche bis zu oder mehrere Quellen zusammenzufassen dazu Überblick ganz interessante Sache Yago ist dabei Gruppen zeigt dabei also solche großen Quellen findet man dort Ziel ist es auch mit dabei ganz interessant ist der groß Kaufhaus weiß ich jetzt nicht ob es tatsächlich stimmt hab ich angeguckt derzeit darauf muss sind dazu waren schon ob das tatsächlich ist ist oder was das ist dass sie es gebe das während ist fast fertig 2 Stück zu schnell ein zurück die roten fehlen auch die
roten sind traditionell schon relativ lange im Netz die waren schon diese Daten quasi semantischer vom vorgelegen bevor es überhaupt das Semantik wird das klingt Delta Netz gab das sind Daten aus dem so genannten live Sciences Biowissenschaften finden Sie aus der Biologie aus der Biochemie sehr sehr viele Daten die schon seit Jahren oder gar Yacine gesammelt werden und die auch mit Hilfe von Ontologien versucht den auf Aufzug auszudrücken bald dort traditionell am wissensbasierte Systeme in dem Bereich verlangen Rolle spielen und deshalb von dieser sehr einfach jetzt auch nach der zu übersetzen was statistisch war darauf schauen hat es gibt eine schöne derzeit auch von der FU Berlin die quasi zu jeder neuen Versionen der der sich später glaubt entsprechende Statistiken veröffentlicht als das man ganz ganz kleinen Ausschnitt davon wie normal die Zusammenstellung von diesen ganzen 295 Datensätzen viele würden jetzt jeden einzelnen der Bereiche die ich gerade hier entsprechend genannt haben Sie sehen die meisten Datensätze gibt im Bereich Public Kirchen das ist natürlich nicht der größte von 3. betrachtet der größte wie gesagt ist aber damit über 13 Milliarden den das also hier fast 42 Prozent steht hier ein eigenes ist 51 Milliarden nicht nur 31 Milliarden das muss noch mal genauer gucken wo ich die Zahlen wieder habe ob ich mich da wieder nur verschrieben und die Links sie auch ok das ganze was sie sind auf der einen Seite natürlich Entitäten die irgendwie miteinander verknüpft sind aber natürlich müssen diese Entitäten dieses als Nationalisten auch über derart Box miteinander in dieser Welt der Autor verknüpft sein das heißt müssen auch die Daten Definition abgelegt seien die sind meistens innerhalb dieser Datensätze auch noch mit vorhanden in Form von Ontologie und das Grundgerüst und Theologie in der Frauen sehen Sie hier ganz wichtig hier ist beispielsweise die haben und das ist ein Ausschnitt quasi aus der großen Gruppen zeigt Ontologie das System aber Level Ontologie die Hunderttausende von von Klassen quasi letztendlich verwaltet und Millionen von Entitäten und am ist quasi ein kleiner Ausschnitt öffentlich gemacht für später natürlich auch sehr schön verwendet werden kann dort eine interessante Datenbank aber sie morgen kleines kreischen die Auerstedt Paul ist natürlich auch wichtig für den Zusammenhalt der später Daten war jetzt dort sehr sehr viele Pauls erst links drinnen sind die identische die den Entitäten diesen einzelne Datensätze miteinander verknüpfen beziehungsweise Paul Äquivalenzklassen längst jetzt einzelne Klassen aus unterschiedlichen Datensätzen hier miteinander in Bezug setzt formal noch mal kurz auf dieses also darauf dass man sich also aber bei Exchange leer und ein Zentrum der hat man quasi Ontologie auf die sehr sehr viele Links von allen möglichen Datensätzen zeigen um klarzumachen ok wenn ich eine bestimmte Klasse beschreiben dann ist die genau die gleiche Klasse die in einem beschrieben worden ist oder sie ist nicht nur das ist Oberklasse oder sowas wie schon gesagt dass es wird Teilmenge von Open zeigt die war schon bei dem Ontologien kennengelernt hatten dargestellt als der tritt mit Hilfe von Kosten und aus 2 das Ghost wenngleich auch noch mal was drüber sagen das sind 28 Tausend Konzepte mit drinnen als Kurskonzept gekennzeichnet und es gibt 46 Tausend Links zu den PDA die und so und vielen vielen anderen über jetzt wiederholt werden als oder bei der es sei klar und so Klassenbezeichnung schöne Sache auch noch es gibt es 2 Millionen von 2 Millionen Wikipedia-Seiten gibt direkte Links zu ermitteln und dort also quasi hat man Klassenzugehörigkeit zu einer Untersuchung die die jetzt ein bisschen sollen wir konsistent angelegt worden ist und auch tatsächlich eine semantische Basis hat nämlich Gruppen zeigt der kann man ja sogar richtig in diesen mitmachen weil das ist eine konsistente sehr sehr große schon seit vielen Jahrzehnten bestehende Ontologie das kann man mit der die Wikipedia eigenen Ontologie die aus der Wikipedia stammt nicht so gut machen die ist nämlich über wissen alles andere als vollständig alles andere als konsistent alles andere als eindeutig sondern in Anführungszeichen sehr schwierig zu machen wichtiges Vokabular und jetzt auch noch die miteinander zu verknüpfen dieser Blind Date halblautes aus winzigste Technology Organist lichen System basiert ebenfalls auf der hat von der der es und damit werden mehr zwischen Vokabularien und Ontologien entsprechend notiert ich kann Klassen definieren Post-Konzern ich kann sagen welche die breiter oder schmaler sind das heißt Ober oder Unterbegriff mit darunter Broder quasi Kennzeichen ich kann sagen ob 2 Dinge miteinander in Bezug stehen was Gott und ich kann sagen und 2 Dinge exakt gleich sind mit exakt wirklich kann sagen ob sie ungefähr gleich sind mit der Roman das bedeutet also sind sie nicht gleich nicht ganz gleich Braut Match und leitet mehr sind weniger genaue quasi Gleichheit Relationen die dann immer schwächer am Ende von mit diesen Vokabular sind ja dass es mit dem Prinzip ja Frage ist es gab im letzten Jahr sehr schön Arbeit in die nannte sich aber auch ist es ist aus 1. und damit genau dieses Problem miteinander diskutiert man die normalerweise davon aus dass das ist aber es gibt quasi kleinen und feine Unterschiede insbesondere auch für die Sachen tatsächlich benutzt worden sind ich wird die Arbeit mitverdienen Materialien können sich das mal angucken weil das ist mir komplizierteren Material über die auch noch gestritten wird deshalb kann ich auch keine verbindlich gelten Aussagen ok ja was machen wir jetzt unsere später besoffen betrachten nicht alle miteinander verbunden sind über entsprechende Vokabular die also die Sache miteinander in Beziehung setzen wir wollen jetzt also selber was veröffentlichen wir brauchen wir dazu dazu brauchen auf der einen Seite natürlich in einer Art und Weise unsere der Daten zu speichern also ein obwohl dort eine es vor das kann 3. Tor sein muss sich wie in der Lage sein dort die Sachen permanent abzuspalten das wär schön wenn ich einen Cache habe das nicht immer schwieriger abfragen oder so die permanent kommen ständig neue berechnet werden müssen ich brauche eine Applikation natürlich in der Anwendungslogik ich brauch natürlich auch User-Interface versteht hinter Business Logic das Ganze ist natürlich jetzt nicht wird spezifisch sondern anwendungsspezifische ich muss eventuell muss unterschiedliche Datensätze aus unterschiedlichen Quellen miteinander in Bezug setzen dass es diese Delta der kurdischen Komponente dich dazu noch brauche ich muss mir dabei überlegen habe ich die die Daten den jetzt direkt bei der lokalen Repositories vorlegen muss sich die eventuell von irgendwo anders ständig holen oder stammen die sind die schon vor bearbeitet und kommen die aus einem Index aus Suchmaschinen Index das heißt je nachdem wo die kommen muss sich die eventuell unterschiedlich behandeln wenn nicht die integrierte also wenn ich dann aus wird ob die dasselbe sind oder nicht das ist dann muss ich natürlich auch in der Lage sein wenn ich eine Anwendung baue die Soßen verwendet eventuell an der Ergebnisse die sollen auch wieder als linke Bild publiziert werden ich brauch also eine solche Details Problemen stehen Komponente und jetzt eigene Daten wieder zurück zu schreiben wenn man sich das ganze Architektur Bildchen anschaut sieht das dann meistens die so in dieser Art aus ich hab ich irgendwo drin Anwendungslogik die Konfiguration steuerbar ist ich hab da drinnen war der 1. Deutsche der auf der einen Seite permanent das auf der andern Seite nicht von noch Cache vorgehalten dann hab ich eine Daten Datenintegration Komponente die eventuell jetzt mit irgendwelchen semantischen Indizes zusammenarbeitet direkt auf die den laut zugreift ich habe einen Benutzer dafür ist das Benutzer Interface Doktorarbeit ist wird sich der Mensch wird damit ich habe eine Bitte Publisher Komponente mit der welche externen Agenten darauf zugreifen können beziehungsweise die dann auch wieder meine Daten schreibt hier in die linke Gruppen Delta ja schön gut also das heißt mit diesem Wissen sollte es eigentlich schon fast in der Lage sein man eigenen der Applikationen zu schreiben das heißt der dazu nutzen den Täter wieder selber zu publizieren schauen wir uns das noch mal ein bisschen mehr an was dabei zu beachten wenn ich auf der zugreifen will aus dem Programm heraus und das meist über welches bat Punkte die ich angreifen aber die Frage ist natürlich wo finde ich den jetzt tatsächlich die Endpunkt dass es schön wenn ich so große Netz nicht dass hier in dieser Grafik veröffentlicht worden ist aber ich muss natürlich auch wissen wo sind denn dahinter entsprechend die Barke Punkte ich eingreifen muss und gibt welches Barthel . genau Daten die ich brauche vorhalten das heißt dafür dass schon nett wenn ich in einer Art und Weise auch meine Auflistung finden würde was denn so alles gibt ich kann die Suchmaschinen benutzen die gerade
kennen gelernt haben es gibt aber auch hier ein W3C Liste der kann allein Barthel vollends kann ich mir angucken und da kann ich sehen welche weltweit wartet Punkte gibt es überhaupt welche sind öffentlich zugreifbar was kann ich damit am Ende macht dann wissen wir ja schon auch aus der fragte Vorlesungen als Fehler gemacht haben das Debakel Punkte bieten Soldat RESTful Web Services das heißt ich kann sehr sehr einfachen Konstrukte immer darauf aufzugreifen und haltet geht kann ich meine Paket an zu weinen Endpunkt absetzen wenn ich jetzt nicht ein vorgefertigtes User-Interface benutzte und die Ergebnisse die nicht zurück bekommen das kann ich sogar sagen ich die haben will die bekomme ich entweder als XML die kann ich als Jason haben kann ich als Text haben ich kann die als RDF haben irgendwelche NRWs Varianten wie ich das hier sage und ich kann das meistens über den HTTP eXept hält direkt Steuern in welcher Art und Weise ich das Ergebnis dann zurück bekommen oder über andere Parameter des Marktes einfacher geht es noch mit dem Bild arbeiten nicht direkt ins Barkel . anspricht und genau diese Lesbarkeit Syntax und HTTP sich zusammen pfriemelt sondern es gibt halt entsprechende Pakete die einen das schon ab und es gibt leider die ich für verschiedene Programmiersprachen benutzen kann die mir jetzt die Kommunikation mit aktuellen . Stückchen einfacher machen auf der einen Seite gibt es jetzt ist Java wie Sie sie es gibt es für PHP diverse und es für Pailletten entsprechend also die Liste ist alles andere als vollständig das sind nur ein paar die man mal hier ausprobieren kann beispielsweise jetzt für den nächsten Übungsaufgaben der sich eine solche Applikationen tatsächlich auch mal was das Prinzip funktioniert das ganz einfach als Beispiel Java und AG und ich möchte jetzt dass Bagdad Frage machen das heißt wenn sich das angucken ich muss nicht mehr das komplexe HTTP abfragen zusammen sondern ich kann ganz einfach ich und die entsprechende Leitung oben für die Frage die sich hier absetzen möchte ich muss auf der einen Seite eine Variable welche hier Service das ist uns bringen gar nicht die Urian von Spargel . ich hab Varianten der ein konkretes legt spezifizierte dann spezifiziert ich mich nicht verwechselt logischen also quasi meine Spaß Barke Abfrage mit instantiiert mit entsprechend welches gerade zu welcher Abfrage schicklich dorthin und dann durch die Abfrage aus und dann ich Stück für Stück durch dieses Ergebnis dass mir zurückgeliefert durch und schauen mir die Treppe an die mir entsprechend zurückgeliefert worden sind von diese Abfrage also Sie sind das ist sehr sehr einfach Vorgehensweise kompliziert wird es erst dann wenn sie nicht mehr den und ein einzelnes Barthel . abfragen wollen sondern mehr aktuell gültigen warte warte nur aus wenn sie nicht fragst 1 1 betrachten sind sie nur in der Lage war sie keine verliert es zu machen sie können zwar mehrere Graphen abfragen die liegen dann aber meistens alle lokal quasi Repository aber wenn sie es und unterschiedliche Quellen die unterschiedlichen Lagen Netz haben abzufragen und dann für der wird abzufragen haben sie das Problem der das geht nicht so einfach da da müssen Sie sich was einfallen heutzutage meistens noch machen das mit Hilfe entsprechende Programme das heißt kompliziert wird dann wenn ich dass Bagdad Fragen über mehrere Punkte der habe und da hab ich viele Möglichkeiten prinzipiell Möglichkeiten sich dabei von den 1. Möglichkeit ich noch alles zu Fuß nach die Anfrage nacheinander nacheinander und zu Fuß einfach deshalb weil das kann ja sein dass das 2. Ergebnis vom 1. gibt es abhängt und dann muss ich dann erst quasi abwarten bis die 1. Frage zu Ende ist bevor ich dann die 2. 2. Möglichkeit ich habe ich kann irgendwo im Netz wenn ich Glück habe ich eine Sammlung von Ressourcen in der mehrere Daten Endpunkte Punkte zusammengefasst gespiegelt werden dass das gibt's auch das ist ein Abfrage einer liegt Delta Repositories aber wenn ich die Sachen die ich brauche jetzt nicht irgendwo zusammenfinde kann ich auch hier und kann so möglich machen bisschen vor Vorarbeit sammeln wir das ganze selbst zusammen und alles was ich brauche ein lokales Repository als bedarf es auch möglich und die 4. Möglichkeit das ist nicht die schönste Variante Nutzung des so genannten für Abfragesystem ist schon dass man nicht funktioniert der geht es darum dass sich quasi im tatsächlich versuchen wird Abfrage zu machen jetzt nicht notwendigerweise direkt auf der Basis von selbst sondern das werde da kann ich ein System nutzen das in der Lage ist quasi dann wäre es bald Punkt über einfaches wartet zu adressieren dieses abfragen dann zusammenzufassen oder auseinander zu schauen und die 4 der nach einfach mal kurz hat als 1. Variante nacheinander abfragen Verschiedenes wagte Punkte zu richten Sie also relativ einfach ich muss entsprechend Platzhalter den eines Templets die ich benutze vielleicht verwenden bevor ich die Abfrage fertig ausformuliert habe weil das vielleicht in der 2. Abfrage Teile der Abfrage der 1. mit eingesetzt werden müssen oder das Ergebnis der 1. mit eingesetzt werden müssen das heißt das einzige was bisschen kompliziert ist meiner Programmlogik ich muss sie dafür Platzhalter für sieht folgendermaßen aus ganz einfach Rafael stellen wir vor wir würden jetzt 2 verschiedene Arten Endpunkt Abfrage auch wieder mit Java und fragt was ich mache es sich formulieren ja einfach einmal eine Abfrage die erste hier vor und zwar mit einem Platzhalter mit diesem Prozent erst quasi hier soll herausgesucht werden zu irgendeiner Entität soll quasi die Beschreibung des Herbst sagt aus der die DPDA herausgesucht werden und dann zurückgegeben werden und am wozu das abstrakte geliefert werden soll dass sie im Grünen Teil das ist die Abfrage an den Investor Barke . dort soll halt was so gemacht werden ja dazu generell alle Entitäten aus diesen Bistros Bad funktioniert sollen nach welchen Kriterien aus abgefragt werden zum Beispiel alle Vortragenden oder alle Vortrags oder was auch immer und dazu möchte ich dann am Ende die abstrakt aus der Wikipedia quasi als Erklärung der ausgeben lassen was sich also mache ich mir als 1. das grüne dass die Abfrage an Jurist oder bekomme ich dann diese Entitäten aus Juristen zurück und dann kann ich an die Stück für Stück für diese Entität durch passt mir dann einen Drinkuth zwar fertig in die ich dann quasi diese Abfrage wie ich oben schon vorbereitet habe mit dem Platzhalter Verbände in nicht den Platzhalter hier ganz einfach Einsätze und dann kommt die Exit Julischen das heißt die fertige Abfrage Nachricht hier 2 und stelle dann können diese aus den beiden Teilen zusammengesetzt Anfrage an die die Mitglieder die ich mir das Herz direkt zu dem jeweiligen Entität dann nicht gefunden haben wieder die lasse was dabei herauskommt kann ich nicht sagen ob das oder nicht macht das ist nur ein einfaches Beispiel wie man jetzt weiß Services ist miteinander verbinden kann bald Punkte und das Ganze dann über 2 Abfragen in den man Platzhalter ein Vorteil wenn ich das mache es klar alle Daten sind quasi Brand aktuell die kommen ja wirklich von ihrer live Location das heißt so aktuell wie die tatsächlich sind so wären dann auch meine Ergebnisse seien das Problem ist jeder der Datensätze Benedikt in separaten stark und ich mußte Programmlogik schalten wir welche gesehen haben und wenn ich das im großen Maßstab machen möchte ist das relativ viel also kann man auf die Idee kommen wenn man Glück hat mir versuchen irgendwo im Netz eine Sammlung von Delta Ressourcen zu finden die gibt es hier also das heißt 101 Bakterien Punkt sind mehrere Graphen abgelegt gespiegelt von anderen Datenquellen nicht alle zusammen verwendet kann zum Beispiel Überblick von den ich gerade gesprochen hatte das es und soll bis da kann ich auch viele verschiedene zugreifen oder auch hier bei oben links habe ich die Möglichkeit hier auch auf fast die komplette nicht die komplette aber großen Teil der Welt hat direkt zuzugreifen das Problem ist das machen natürlich viele da nicht viel drin dass es nicht unbedingt so schnell wer das heißt dort kann nicht so tun als wäre quasi die Bilder nur zentral auf eine andere Position vorhanden das heißt auch keine spezielle Programmlogik Problem ist dadurch dass das gerast also Spielwiese sind die immer wieder periodisch aktualisiert werden sind die Daten natürlich nicht immer Brand aktuelle und möglicherweise sind in diesen sein wenn auch nicht alle Daten die ich brauche dann hab ich Problemen dann muss ich mir Teile davon irgendwo anders ist und deshalb und natürlich auch sämtliche Kontrolle zu bewahren kann ich kann auch sagen ok ich versuch halt alles was ich brauche bei lokale abzulegen ist es nicht viel diese paar Gigabyte die das sind die habe ich vielleicht noch übrig hat das alles die konkrete lehnte das Auto der Arbeitsämter irgendwo wo Lokalbahn Speicher und
arbeitet damit müssen natürlich wissen wenn sie sehr sehr viele das heißt der runterladen wollen und übersichtlich Bagdad . vorhalten wollen muss das natürlich entsprechend große Maschine sollen weil das ganze braucht Platz und also Sie machen ja auch wieder seine Daten Zentralisierung die Frage ist Krise die Daten viele von ins Bad und liefern neben dem eigentlichen . natürlich auch komplette Erde ist damit wir können sie sich später komplett runterladen weil sich lokalen Punkt kopieren oder sie die Inhalte der und benutzen beispielsweise eines beider und dann fangen sie an mir das Werk wurde das wird oft dazu wollen nach später und versuchen die trippelt Stück für Stück mit Hilfe dieses Werk Corollas herunterzuladen das Schöne das natürlich auch hier sie brauchen keine spezielle Programmlogik weil sie wieder so tun als wäre das eine oder das wird auf später lokal auf ihrer Maschine sind alle Datensätze da die sie brauchen das ist schön besser als bei der Nummer 2 und das ist natürlich auch so wenn sie eine lokale Kopie haben ist die lokale Kopie natürlich unabhängig davon ob jetzt gerade der Punkt zugreifbar ist oder nicht das heißt wenn man jetzt auf die Idee kommt die englische der Mitglieder abzuschalten werden sie in der Schönlage könnten sagen wir uns aber und lokale kopiert gespeichert wir haben da keine Probleme Nachteil dass ich hab hier diese Infrastruktur dich erst aufbauen muss ist es natürlich nicht immer brandaktuell ich muss das irgendwie komplizieren und die Datensammlungen kann manchmal relativ kompliziert werden wenn ich jetzt mit Corolla quasi loslegen muss und kann jetzt nicht mehr auf den kompletten werde erst dann von der Webseite die ich brauche zurückgreifen deshalb versucht uns auch auf hier über einen verliert das Abfragesystemen verliert Abfragesystemen funktionieren meistens nur mit Hilfe des so genannten Mediator zwischen der eigentlichen Abfrage und Datenquellen Mediator folgendes zerlegt dann diese komplexe Suchanfragen Einzel abfragen und fast ein Ergebnis wieder zusammen und Sie können sich vor diesem abfragen Ciao über mehrere Datenquellen sind hat dieser Miyahara können die einzelnen abfragen erst mal losschickt mitunter sehr viel zu tun und zu filtern und das brauche natürlich auch entsprechend zeigt das heißt besteht die Abfragen los und dann natürlich auch von den einzelnen Datenquellen Ergebnisse zurück die dann entsprechend kombiniert zusammengefasst und gefiltert werden es schön ist natürlich auch der Mediator wieder ab dass sie das eigene Programmlogik einbauen müssen das Ganze geht also ohne spezielle Prix Programmlogik die abgefragten Daten müssen natürlich jeweils alle immer selbst übernehmen Delta das Passepartout pro verfügen das ist klar sie müssen im voraus bekannt seien die Endpunkte also die Daten auf die sie zugreifen wollen das müssen Sie müssen Sie die Art wie mitgeben und falls es welche neuen Moment noch unbekannten Datenquellen gibt die zwar irgendwo in den Ergebnissen verlinkt sind können sie nicht so ohne weiteres aufzugreifen weil sie die vorher oder Abfrage auch gar nicht sieht so aus als würden sie was fragen wollen mehr der Nachteil war ja auch nicht mit einem also der ist es natürlich so dass bei den anderen setzen sie auch nicht unbekannte Datensatz abfragen können beziehungsweise können schon nach dem was als Ergebnis herauskommt bei der zu Fuß Methode können Sie eventuell dann der Abfrage einer Quelle die sie vorher noch nicht berücksichtigt habe es möglich die müssen sich nur so vorstellen dass sie dann auch das variabel setzen quasi den Endpunkt sie ansprechen wollen machen sie wieder abhängig davon was sie von der also das funktioniert bei der 1. Wahl hieß es auf jeden Fall so dass sie von vornherein alles spezifizieren müssen welche Punkte sie Anfragen welche Daten sie quasi haben wollen wenn sie einen Link ist was wir machen am quasi wenn sie während der Abfrage quasi auch die Abfrage selbst die Ergebnisse auf das neue dazu aus welchen dargestellt was sie von Anfang an nicht berücksichtigt haben und so aber machen gucken wie weit komme ich bin ich bestimmt das linke verfolge dann quasi können Sie auch unbekannte Daten letztendlich mit einem einfaches Beispiel stellen sich noch vor wir wieder unsere Jurist dort Suchmaschine dort haben sind Vorlesungs Videos dringend die Vorlesungs wieder welche vortragen in diesen Vorlesungen und wir wollen wir wissen was haben die denn so alles publiziert das was die wissenschaftlichen Publikationen der Vortragenden aus unserem bis zur Vorlesung Switches da müssen wir eigentlich von vornherein natürlich Gedanken machen von König den Daten eigentlich hier also ist ist klar damit ins Bakterien Punkte kann nicht aufkommen wenn ich Glück habe dann finde ich irgendwelche Informationen über die Sprecher die dort war gewiß so in der Datenbank sind vielleicht auch in der DDR dann sollte ich wissen dass in der oftmals zu Personen die der Mitglieder sind entsprechend auch noch ein wenig die genauen Daten der Deutschen Nationalbibliothek abgelegt sind über die man dann die Publikation zugreifen kann neben dem Paar Publikationen über die ja vielleicht schon direkt bekommt das dann vielleicht interessant vollständig würde dann folgendermaßen aus den also ich ja ich muss dann aber zu einem bestimmten Video das sich gegeben aber erst nach herausfinden über den aktuellen Punkt der das von doch ist dort der Sprecher dann steht da dort der Sprecher der hat der als 813 also gar 813 müssen und nicht das ist es natürlich noch mal weiter zu greifen auf diesem Orte und um herauszufinden was ist nur der Name beziehungsweise gibt es hier von John bist du von dem sich die Karte in eine andere quasi blind Tag Quelle und wird dort beispielsweise das ein 1. angegeben ist der ist fragte Punkt für diesen Speaker 813 nämlich mit Wikipedia ORF sowas Max-Planck das heißt der mehr als eine Million vorlegen in dem Max-Planck uns was erzählt und wie sie es gibt noch zusätzlich Informationen und Max Planck hat also 30 auf die PDA zu dieser Adresse die ich bekommen habe schauen mir sämtliche Daten an die hier drin stehen und stelle fest haben es gibt hier ebenfalls wieder 1 s Max Planck finde ich nämlich auch in der deutschen Nationalbibliothek den Normdaten München der die die und dort hatte wesentlich längere Nummer 1 1 8 5 9 4 8 1 8 das heißt ich bekommen einen Link zu demselben Zuse selben Personen einer anderen Datenquelle schauen dort wieder nach und wenn ich dort danach Schauer der Deutschen Nationalbibliothek find ich dann für diese Personen Max Planck ganze Reihe von Publikationen gegen die als geschrieben hat in 1 Jahr und Vorträge dir gehalten hat und und kann dann diese Sachen einfach abgreifen und ausgeben als Ergebnis das Ergebnis dass sich das Buch über so dass es ein so genanntes liegt verpasst hat kann ich mich dann von Datenbank zu Datenbank entlang einer Implementierung von sowas ist natürlich relativ kompliziert aber es gibt es 2 verschiedene interessantesten ist die 2. klingt die stammt von von Olaf hat von der HU deshalb glaube ich in Berlin und sagen sehr schöne Sache damit kann man dann also quasi Barthel Abfragen über mehrere Endpunktes Marke Punkte machen und zwar mit einem Link ist aber sehr wohl nicht notwendigerweise klar ist wo die Sachen dann am Ende sollen also da kann man dann aber sie auch bei dem aber als Fragen die man von vornherein noch gar nicht weiß benötigt ebenfalls keine spezielle Programmlogik hat aber natürlich auch Nachteile Vorteil dazu noch kommen natürlich da die Daten live abgefragt werden sind natürlich stets aktuelle und nicht alles wie wie schon gesagt muss von vornherein bekannt sein aber es ist natürlich zeitaufwendig das heißt es ist es dauern normalerweise sehr sehr lange wenn sie dass man tatsächlich ausprobieren sollten wir können sollte es auch eine geben interaktive Oberfläche Roman solche Abfragen machen kann damit ich auch vor mitverdient dann wenn sie sehen dass das sehr sehr lange dauern kann bis die Ergebnisse dann der eintrudeln das einzig schönes man kann natürlich lokale Kelches einrichten das heißt er war frei von wird dann beim 2. Mal entsprechend schneller beantwortet aber je nachdem wie lange man wartet auf Ergebnisse sind sie nicht notwendigerweise alle dann immer vollständig weil da kann als immer mehr gefunden werden weil der komplett Graf hier am Ende tabuisiert werden kann ob die also das die Möglichkeiten der Anwendungsentwicklung wie ich mir die kann und selbst jetzt solche liegt ETA Application aufbauen kann was noch bleibt am Ende ist zu fragen wer es ist natürlich neue sagte sie angesehen diese DelTag laut 2007 hat das angefangen fängt jetzt langsam an größer zu werden mit 295 Datensätzen was ist jetzt eigentlich noch drin in Sachen Forschungsbedarf was wir da gerade gemacht was machen wir denn eigentlich in dem Bereich und wir sind natürlich bei der Forschung Semantik der Bereich mit dabei und machen ja auch einige Dinge die ich Ihnen auch in der kommenden beziehungsweise in der übernächsten Woche zeigen einige Forschungsansätze hier Elternbereich möchte ich jetzt schon auf generelle geht es darum
also es gibt mittlerweile schon relativ viele Daten im Netz ob 51 oder 31. Musiknummer nachschlagen weil ich mich richtig Zahlen abgeschrieben habe am es gibt es relativ große Forschungsgemeinde die sich über das Netz auch entsprechend organisiert auch in Deutschland sind relativ gut aufgestellt was Forschung Semantik wird Bereich der Bereich angeht haben zum einen die die Wikipedia selbst die Idee dazu stammt mit aus Leipzig von Solon Auer und die anderen da es nur quasi das noch einmal die Mitglieder auch angesiedelt bei bei Chris zu bezahlt ja auch diese gelingt später Prinzipien mit einem Buch dann veröffentlicht zusammen mit dem hier das sich dann am Ende auch noch kurzzeitigen wird als Literatur war es also da sind wir eigentlich ganz gut aufgestellt es geht auch bloß das kann sich die Industrie und später Gedanken macht die BBC schon seit einigen Jahren die Webseite hatten wir ganz am Anfang schon mal kennengelernt von der BBC der später genutzt wird semantische Daten genutzt werden um durch 1. zu bauen Thompson zum Beispiel nutzt das Reuters als Presseagentur nutzen das und noch eine ganz andere Bereiche es ständig mehr und es geht auch so weit dass hier sehr sehr viele von diesen öffentlich Daten aus der öffentlichen Verwaltung also solche permanent später der permanent steht damit auch als Client Delta benutzt und das wird auch verwendet das geht so weit dass beispielsweise in Großbritannien aber schon gefordert wird dass den Daten die quasi öffentlich ins Netz gestellt werden sollen auch als Eltern bereitgestellt werden sollen damit man daher in der Lage ist entsprechende Mashups sehr sehr schnell entwickeln zu können diese realisieren zu können damit versteht was diese Daten überhaupt bedeutet und natürlich sind diese liegen da Geschichten jetzt eine die Sichtweise so dass man die langsam quasi Fuß fasst eigentlich nichts und quasi jetzt auch die Probleme die gibt es eigentlich leicht aufgezählt auf der einen Seite ist natürlich klar Kohärenz der Zusammenhang innerhalb dieses liegt Netz ist noch relativ gering es gibt wenig viel zu wenige längst eigentlich wenn man sich die Statistiken anguckt das heißt es ist nur sehr sehr schwach miteinander verbunden die Datenqualität lässt auf alle Fälle zu wünschen übrig das diese Inkonsistenzen drin man muss sich das mal gucken wie sind die Daten überhaupt in welchem Zustand bevor ich zu benutzen kann macht das überhaupt insbesondere wenn ich sie kommerziell nutzen möchte dann sind die Zugriffs Mechanismen übers Pate Punkte oder über die Sachen kennengelernt haben über verschiedene Arten Punkten zugreift alles andere als Hochperformante das heißt die gibt es gegenüber traditionell Lösungen die auf relationalen Datenbanken basieren noch Größenordnung es Unterschiede vom Faktor 2 bis 10 das ist also ganz immer noch an der dann hat man noch relativ wenig Erfahrung damit wenn man wirklich großmaßstäbig diese Daten benutzt und damit auch tatsächlich was macht und am haben ja so beliebt ist auch so eine Sache des gibt keine wirklich besonders schön Nutzer Tools oder auch Killerapplikationen die quasi das so direkt ins Leben hinein Gefahr generell wenn man sich die Landkarte anguckt Semantic Web Landkarte so dass man vor der gleichen Situation vor der die Seefahrer 15. 16. Jahrhundert waren als die Karte noch sehr sehr viele weiße Flecken auf gewiesen hat und da haben sich die Kartographen das relativ einfach gemacht wenn sie keine Informationen über diese Weltgegend hatten sich mit auf die Karten bringen sollten haben sich dann so geholfen das ganze Reihe interessanter van Tiere also solche Drachen und ähnliche Sachen mit diese Karten eingezeichnet haben und haben meist runtergeschrieben Hickson drakonisches beziehungsweise noch früher beschrieben und Leones also gibt oder machen und damit man dort nicht weil man keine Ahnung hat was man dort finden kann und genau dasselbe gilt natürlich auch für den Tag wir haben diese Tag laut aber keiner weiß so recht was ist dann alles wirklich tatsächlich drehen und welche Begebenheiten herrschenden Darfur und viele haben noch Angst dass zu benutzen weil sie Angst haben da genauso Drachen oder versteckt sei deshalb gibt ja einige Research Challenge es an den wir auch hier hat die mit beteiligt sind einmal geht's quasi darum dass man erst mal so überlegt ja wie groß ist jetzt genau dieses dieses Daten Universum überhaupt wie viele Daten gibt es da drin viele 3. sind drin wie viele Dokumente steht drin wieviel der Linken steckt drin und was sonst gibt es überhaupt draußen und wie kann ich das sind immer genau zeitgerecht feststellen weil das was wir kennen quasi ist nur dieses registriert war Vokabular das die Sachen über diesen Link Gruppen Webseite angemeldet sind und alle Kriterien quasi um dort aufgenommen zu werden dann entsprechend gibt noch viel viel mehr dem später das letzte herumliegt aber dort noch nicht mit kartografiert dass da sind wir natürlich nicht die 1. daran schon andere vor und dort das heißt man hat schon angefangen sehr sehr früh 2005 hat das angefangen basieren oder aus mit der Suchmaschine Small und auch andere Initiativen aber versucht das das man Zug von der Daten zu wollen und sind halt so verschiedene Versuche gestartet worden und der größte Datensatz angekommen und hatte 2008 das man mittlerweile fast 3 Milliarden die man hatte die dann auch quasi zum Testzwecken dann auch zur Verfügung gestellt worden sind dann möchte man wissen Daten gekräuterte wie sieht das denn überhaupt aus die Vernetzung der Daten untereinander versteht man von ähnlichen Situationen wie Anfang des Jahrtausends im World Wide Web da gab es auch noch keine also ein paar Millionen oder gar 100 Millionen Webseiten gab es sich nicht mit dieses schöne bekannt wie in dem quasi die Struktur des World Wide Web um das Jahr 2000 festgehalten worden ist und zwar festgestellt es gibt da wird zu großen Knoten bestehend aus damals 56 Millionen Webseiten oder das Dokument die alle untereinander verlinkt waren das man so genanntes von Components klicken in dem Fall mittelgroße Clique und dann gab es einmal Richtung raus und einmal Richtung reichen diese Clique hier wieder größere Gruppen von Webseiten und daran hat man auch noch durch Tunnels dazwischen direkt von dem Ausgang Eingang oder zurückgezahlt haben oder solche von Wurmfortsätzen die sich nur verloren haben und zusätzlich hat es dann noch so sind also das war die Situation der um das Jahr 2000 nicht wie hier war die Situation Semantik wird 10 Jahre später dann im Jahr 2010 und da hat man ja auch schon Untersuchungen gemacht und hat dann festgestellt oder hat zusammen mit anhand eines Ausschnitts dieses gekreuzten Datensatz ist daher mit dieser Falken Suchmaschine gegrollt hatte da hat man 18 Millionen der der Dokumente aus dem 110 Millionen Knoten mit 190 Mio kann heraus extrahiert werden hat man statistisch einfach untersucht und festgestellt also normalerweise ist jeder Knoten mit 3 , 4 anderen Knoten verbunden das ist also der durchschnittliche keiner gerade Verknüpfung Square dessen was man gezogen hat und wenn man will die durchschnittliche Pfad Länge das heißt der Durchmesser von diesem Graphen war ungefähr 11 , 5 das heißt also verfolgt hat 11 , 5 Schritte ist meine sprechen weiter weitergekommen und es gab ebenfalls die ursprünglichen der mir sehr sehr große Connected Component also stark Verletzte Komponente von insgesamt 88 Prozent dieser Knoten dass es auch klar wenn ich versuche mit Orla quasi
loszugehen Daten zusammen sind natürlich miteinander vernetzen statt der oder eine Chance die Daten heranzukommen also das so strukturelle Analysen die man durch den strukturellen Analysen führt man inhaltliche Analysen durch konnten bis dann alles und da gab es auch 2010 sehr schöne Initiativen wie die Entwickler und der ging um das geguckt hat Jahre ist so schön dass man so viele Daten hat aber wie sieht es denn überhaupt mit der Konsistenz dieser Daten aus beziehungsweise der Kohärenz dieser Daten da hat man etwas kleineren Datensatz genommen weil es natürlich klar und inhaltlich betrachtet sind die Verfahren die man aber auch um das zu prüfen natürlich wesentlich komplexer also dann 12 Millionen tritt ein ganzes Stück kleiner dass man nur und hat dann als festgestellt ja viel verlässt das unvollständig also es gibt viele tote Links viele Soßen auf dich nicht zugreifen kann zum Teil sind sie inkohärent das heißt man hat Teile dabei die Ontologie oder Beschreibungen man ab als die Fehler bei der Interpretation ergeben dass sie einmal manchmal lokale vor und andere das dann auch noch nutzen viele benutzen dann wieder Teile der Ontologie oder fremde Entitäten wieder bezeichnet man das sie als Heidenschreck das heißt da hat man dann von externe Quelle der nicht interpretiert werden kann und der schlimmste Fall der vorlegen kann es nicht dann gegeben wenn das nicht interpretiert werden kann sondern 2 Widersprüche der widersprüchliche Aussagen da sind echte Inkonsistenzen hat die man daran übersetzt hat das kann man sich auch sehr leicht vorstellen was man hier quasi durch Wiesen Inhalt passiert herausfinden kann 2. 2010 auch hier sehr sehr große Untersuchung gemacht jetzt hier künstlich erzeugten 100 Billionen Treppe also 100 Milliarden für gewann das dann eigentlich hat man mir bewiesen auch sehr sehr großen Basis jetzt nur mit der Daten versucht durchzuführen hier an der University und da hat man versucht solche Sachen zu machen wie das man den kompletten Abschlussbericht berechnet hat das also komplette Abschluss heißt ja nicht einmal die Entität Fabio Capello und der soll geboren sollen so Christian die sonst so dass der Person und Sie wissen dass wir Person und Geburtsort hat und dann kann man quasi wenn man diese Daten vorliegen hat keine Schlussfolgerungen herausfinden oder denunzieren das quasi ist kann sich die sonst so ein Satz ein Ort muss also das kann man ja letztendlich dann schlussfolgern und sowas schlussfolgern quasi alles wissen explizit machen da kann man solche vollständig bilden und das haben die versucht das vollständige würde für 100 Milliarden trippelt zu macht eine andere Geschichte ist wenn ich möchte und diesen Zustand der und Aufgeräumtheit dieser oder der Unsauberkeit sind später Resorts zuerst zu erkennen und dann auch noch zu verbessern am Tag singen sich dieser Ansatz der geht es darum dass ich erst mal feststellen wo beispielsweise angefangen lediglich gibt es denn jetzt Punkte an denen ich sagen muss die sind Inkonsistenzen sind Mehrdeutigkeiten ist das nicht sauber quasi definiert oder formuliert wie jetzt quasi so meine Ontologien aussehen kann erst mal muss sich identifizieren und dann muss ich eventuell auch noch Lösungen möglichst automatisierten Lösungen finden wie ich diese Fehler oder diese und der Reinheit quasi die entfernen kann und da wo auch im vergangenen Jahr 2 Spiele entwickelt die auch auf Facebook hinterlegt sind das von ausspielen vielleicht daß einer von ihnen das ist so einfaches und nicht vielmehr mit Millionär Spiel bei dem man quasi ausklingt Delta generierte Fragen aus außerdem der beantworten muss und ist das wir auch im letzten Jahr gehabt das ist ebenfalls ein Spiel ist angelehnt an das habe die auf und küßte ebenfalls wieder zu bestimmten Kategorien nur zu Personen Fragen generiert aus der englischen und durch das beantworten von Fragen kann man feststellen gibt es dort Inkonsistenzen oder sind da irgendwelche Sachen war sauber falsch eingetragen und so weiter und die kann man da identifizieren mit dieser Spiele ganz einfaches Beispiel was quasi eine Infobox ist es gibt keine festen Regeln diese Infobox das auszufüllen und die Infobox dass wir natürlich automatisch extrahiert aus der Wikipedia die Mitglieder unter der passiert dann beispielsweise wenn sie beispielsweise Land können Sie angeben wie heißt die Nationalhymne und die Wikipedia-Autoren die sind natürlich sehr schlau und schreiben dann nicht nur den Titel der nationale sondern schreiben dahinter in Klammern beispielsweise bei Usbekistan die nationale ist in russischer Sprache also den Namen der nationalen Klammer auf Russisch und hinterlegen das russisch weil das russische Sprache ist mit Russland quasi als linke und dann hab ich irgendwann in die Wikipedia drin stehen die Nationalhymne von Usbekistan ist Russland was natürlich totaler Quatsch ist aber das Licht wieder daran dass diese Daten aus diesen wozu so extrahiert worden es ist die Frage wo sitzt man einen sagt man Infobox Autoren passt auf das für bestimmte Regeln nach denen das ausfüllen und dann schüttelt sich die ganze die PIN Wikipedia-Gemeinde weil das sind ja alles Leute den Zug sowie die schreiben wollen und keine Datenbank und sagen also gelassen vor Boxen am besten ganz raus dann haben diesen Ärger gar nicht das passt natürlich dann die Mitglieder Leuten und und von Semantik wird nicht das heißt man muss die Möglichkeiten für solch Inkonsistenzen zumindest zu finden dass irgendjemand mal geht das von Hand ist weil nicht quasi diese Sachen entdeckt haben automatisch lösen der 2. Sache die total interessant ist es gibt sehr viele liegt später Ressourcen beispielsweise zu Albert Einstein finden Sie über 600 Fakten also trippelnde die Mitglied das Problem ist nur sie können nur schlecht entscheiden auf automatisierte Art und Weise welche dieser Fakten ist jetzt in einer Art und Weise wichtig oder unwichtig einfaches Beispiel an sie haben ja das den und sie haben wir zweimal mit Typangabe einmal ist ein amerikanischer Vegetarier und einmal ist Wissenschaftler jetzt frage ich Sie was ist wichtiger seien sie natürlich das liegt im Auge des Betrachters das heißt wenn ich das 1. quasi der begann weiß das ist natürlich wichtig zu sagen es vergeht hat aber müssen natürlich ein objektives Urteil fällen das quasi in den Augen der meisten irgendwie stimmen würden das heißt man guckt sich in dem Fall dass es ist nur eine von ganz vielen Ranking Heuristiken an mit welchem Entitäten sind jetzt diese Klassen den Albert Einstein zugeordnet ist sonst noch verbunden also beispielsweise findet man das Bild kostspielig also da man diese bekommen Spielshow gemacht und kombinieren ebenfalls Vegetarier geschont ist und dass es andere Wissenschaftler die beispielsweise Alfred kleine wenn es noch mal kucken gibt es den welche Beziehungen zwischen diesen anderen Entitäten meiner Ausgangs liegt stellt man fest dass zwischen Albert Einstein und Alfred kleiner ebenfalls eine Beziehung steht nämlich Dr. Weise das bedeutet am Alfred kleiner bei der Doktorvater von Albert Einstein und aus genau dieser zusätzlichen Verknüpfungen die man hier hat man findet eine Verknüpfung zwischen den Kurs und Albert Einstein direkt kann man anschließend wahrscheinlich ist genau diese Klasse 2 ist für Albert Einstein wichtiger im allgemein als jetzt hier des amerikanischen Gitarre hat also solche Heuristiken versucht man daher zu entwickeln um herauszufinden welche Fakten sind wichtig welche Fakten sind und nicht die müssen natürlich dann auch wieder überprüft werden dazu braucht man Evaluation Servern dazu anderen Spiele gut aber zu dem was wir aktuell machen in dem Bereich nächstes über nächstes Mal mehr als wenn es also die Sachen die ich Ihnen zeigen wollte im Bereich liegen etwa sie werden die Aufgabe bekommen der von selbst hier eine interessante Aufgabe in dem Bereich zu lösen
und wir werden uns dann als nächstes Mal Punkt 4 3 anschauen da geht es um semantische Suche sehr sehr
schwieriges Thema was kann ich denn im Gegensatz zu traditionellen Suchmaschinen besser machen wenn ich semantische Informationen über die Dinge die Suchmaschine sucht zusätzlich noch aber uns dann anschauen und auch Implementationen entsprechend betrachten zu zulegen der
Tag gibt es ein schönes Buch das ich letztes Jahr erschienenen hier schon gesagt von Form und bis zu wollen bewahrt Tour Blobel das ist das müssen sie nicht kaufen das gibt als html-Version Netz habe ich verlinkt den Materialien können sich dann hier entsprechend anschauen was alles dazu gut das was wir heute vielleicht da
Quelle <Physik>
Retrievalsprache
Objektklasse
Länge
Stellenring
Datensichtgerät
Filterung <Stochastik>
Programm
Schreiben <Datenverarbeitung>
HTTP
Ranking
Information
Benutzeroberfläche
Client
OISC
Großer Maßstab
Code
TOUR <Programm>
Strukturierte Daten
Caching
GHOST <Hilfesystem>
Informationsqualität
Datennetz
Content <Internet>
JavaScript
Verfügbarkeit
Semantisches Netz
Benchmark
Natürliche Sprache
Ranking
Verbandstheorie
Windkanal
Tabelle <Informatik>
Mathematische Größe
Algebraisch abgeschlossener Körper
Zusammenhang <Mathematik>
Google
Repository <Informatik>
Variable
WEB
Firefox <Programm>
RDF <Informatik>
Switch <Kommunikationstechnik>
ART-Netz
Inkonsistenz
Drahtloses lokales Netz
Hub <Informatik>
Datenmodell
Datenmodell
Browser
Plug in
Binder <Informatik>
Parser
Content Management
Maskierung <Informatik>
Zeichenkette
Caching
Zeitreihe
Systemtechnik
Kommunikationsprotokoll
Inferenz <Künstliche Intelligenz>
Flickr
Datenbank
Mensch-Maschine-Schnittstelle
Analysis
Komponente <Software>
Uniforme Struktur
Visualisierung
MIDI <Musikelektronik>
Zugriff
Interpretierer
Parametersystem
Internet
Äquivalenzklasse
Synchronisierung
Datenhaltung
Bindung <Stochastik>
Reihe
Heuristik
Abfrage
Hausdorff-Raum
Elektronische Unterschrift
Zahl
Datenformat
Variable
Teilmenge
Summe
Version <Informatik>
Semantic Web
Aggregatzustand
Standardabweichung
World Wide Web
Datei
Wissensrepräsentation
Metadaten
Besprechung/Interview
Drupal
Netzadresse
Code
Datenbanksystem
Hypermedia
Grundraum
Programmiersprache
Durchmesser
PACE
Flickr
Project <Programm>
Lösung <Mathematik>
Lucene
Parametersystem
Momentenproblem
Browser
Lag
Benutzerfreundlichkeit
Kooperatives Informationssystem
Computeranimation
Homepage
Richtung
Metadaten
Turtle <Informatik>
Suchmaschine
Faktor <Algebra>
Schnittstelle
App <Programm>
Mashup <Internet>
ARC <Programmiersprache>
Kategorie <Mathematik>
Ruhmasse
Literaturdatenbank
API
Web log
Dienst <Informatik>
Menge
Abfrage
Anwendungssoftware
Server
Client
Internetdienst
Repository <Informatik>
Facebook
Hash-Algorithmus
Teilmenge
Content <Internet>
Strukturierte Daten
Zugriff
HTML
Alive <Programm>
HTML
Konfigurationsraum
Informatik
Position
Aussage <Mathematik>
Statistische Analyse
HTTP
Menge
Chipkarte
Komponente <Software>
Chatten <Kommunikation>
Größenordnung
Faktorisierung
Punkt
Formation <Mathematik>
Divisor
Datenformat
Restriktion <Mathematik>
Index
Web Services
Eigenwert
Google
Fläche
Just-in-Time-Compiler
Ähnlichkeitsgeometrie
Index
Verschlingung
URL
Information
Datenbank
Server
Funktionalität
Implementierung
RDF <Informatik>
Web-Seite
E-Mail
Ausdruck <Logik>
Graph
Datensatz
Linked Data
XML
SPARQL
Datenintegration
Softwareentwickler
Struktur <Mathematik>
Implementierung
Relationale Datenbank
Ontologie <Wissensverarbeitung>
Vorgehensmodell
Uniforme Struktur
Durchschnitt <Mengenlehre>
Geflecht <Mathematik>
Systems <München>
Benutzerführung

Metadaten

Formale Metadaten

Titel 12 Semantic Web Technologien - Linked Data Engineering
Serientitel Semantic Web Technologien WS 2011/12
Teil 12
Anzahl der Teile 13
Autor Sack, Harald
Lizenz CC-Namensnennung - keine kommerzielle Nutzung 3.0 Deutschland:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen und nicht-kommerziellen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
DOI 10.5446/14273
Herausgeber Hasso Plattner Institut (HPI)
Erscheinungsjahr 2012
Sprache Deutsch

Inhaltliche Metadaten

Fachgebiet Informatik
Schlagwörter linked data

Ähnliche Filme

Loading...
Feedback