Merken

13 Semantic Web Technologien - Semantic Search

Zitierlink des Filmsegments
Embed Code

Automatisierte Medienanalyse

Beta
Erkannte Entitäten
Sprachtranskript
ich begrüßt recht herzlich heute zur 14. wenn ich richtig gezählt habe Vorlesung und heute ist quasi die letzte Vorlesung der berichtigt neuen Stoff durch die nächste Woche ist die letzte Woche vor der Klausur von dort wir noch mal einer Übung haben also es gibt wurde und Übungsblatt das morgen wollte war heute morgen werden nur morgen also es gibt noch mal ein neues Übungsplatz und wir werden in der letzten Stunde vor der Klausur eine Konsultation durch für das heißt alles was sie noch gerne wissen wollen von der Vorlesung beziehungsweise wovor sie Angst haben oder glauben könnte Klausur drankommen können uns gerne Fragen und wir geben dann entsprechende Antwort das heißt er war alle daher sollen unter Vorsitz aufwarten dass sie uns Fragen stellen ihre Shows Qualität zu fragen die immer interessiert haben zu Semantik Technologie und die sie glauben unbedingt zu benötigt um die Torso zu bestimmen genau also das machen oder nächste Woche die damit das nicht quasi umgedreht in der Reihenfolge ist dass wir Dienstag dann kostet Konsultationen und Mittwoch Grundübung Übung haben haben wir für nächste Woche das ganze getauscht steht dann noch mal Block das heißt nächste Woche ist am Dienstag Übung und am Mittwoch die Konsultationen in denen jeweils sprechen dazu vorgesehenen Räumlichkeiten aber noch dazu schreiben und noch mal kurz was damit dass keiner vergisst gesund so also dann los mit dem Stoff was immer das letzte Mal gemacht ja Japan
geblieben war liegt keine später und man wird der Begriff und warum hat uns oder darüber hatten uns unterhalten Link Teil als einer der treibenden Faktoren jetzt für das langsam prosperierende Semantik war nicht mehr ganz einfache Geschichte war sollte nicht darum dass man strukturierte vormals strukturierte Daten aber in einer einheitlichen vor mit einer einheitlichen Schnittstelle zur Verfügung gestellt und zwar so dass man mit dem an der wirklich darauf zugreifen kann nämlich die Daten vor als tritt sie sind ihre Ziele war überhaupt Boris und wir sind das ist das Schöne auch noch mehr verknüpft mit anderen Daten und deshalb konnte das liegt hier überhaupt 3 diese Verknüpfungen steigert vorsieht wieder die Interoperabilität und Einsatzfähigkeit dieser Daten und man kann dadurch dass der oftmals und Kategorie System und ähnliches stehen diese dann auch semantischen Sinn und Nutzen und intelligenter automatisch wieder und gegenüber dem traditionellen Technologien wie beispielsweise proprietären der API und ähnlichen hat man festgestellt oder haben wir festgestellt dass der zumal das man mit Hilfe dieser bedingt Delta Technologie über zugreifen kann über ganz normales HTTP Protokoll Port 80 sollte es immer kein Problem sollen auch wenn Sicherheitsarchitekturen Firewall von sonst was da sind und man hat sie ein einheitliches Datenmodell drunter nicht dass der Datenmodell um quasi interoperabel Daten miteinander auszutauschen was eine praktische Sache was uns heute
anschauen wollen es mir ganz spezielle Anwendungen von Symantec Technologien nämlich es geht um den Bereich der semantischen suchte sie
sich vom mit vielen oder Suche nach Informationen war eigentlich auch das Ausgangsproblem an der würde die Vorlesungen quasi aufgehalten haben wir hatten gesagt Informationssuche bei Informationsextraktion für die Informationssuche gibt es Schwierigkeiten mit traditionellen ist das hat ist nicht gut wenn man natürlich Gründen kann was steckt hinter der Information welche Bedeutung hat die Information deshalb jetzt dieses schöne Bild gewählt habe können dass jemand weiß man dass es gibt also als Richtschnur kann aber es ist ungefähr so die 500 Jahre alt das Bild nennt sich der Name ist schön das hat sich versteckt Melancholie das heißt wir könnten der an den oben tatsächlich lesen wie das Bild heißt konnten das eventuell wieder wiederfinden aber was zu Zeit gemacht haben wir viel symbolhaft den in diesen Bildern mit versteckt man sich das anguckt ist also eine große Figur dieser ist und kleines Engelchen hat wie der beschreiben Riesenbild gelegen gelesen dass die natürlich aus ganz bestimmt Gründen an diesen Stellen 17 so berühren sich beispielsweise die großen Flügeln mit dem kleinen für genau an dem Punkt in der Goldene Schnitt Verhältnis 16 zu 9 vielleicht quasi sich hier trifft und ähnliches dann sind hier seltsame Gegenstände im Bild mit versteckt wie können dieses und jenes und Kugel auf der linken Seite darüber dass ihr Sohn Politik da die haben natürlich ganz bestimmte Bedeutung dann sieht man das keine setzt auf den Mühlsteinen drauf und dann oben drüber und Stundenglas das spielt dazu auf die Vergänglichkeit aller Dinge und sonst was an die ganze Symbole diese Daten einsehen also der ein Viertel der kann doch nicht nur einen ein Problem und das deutet also es geht um die dem Künstler der was sagen möchte und das thematisch oder komplizierteste versteckt in diesem Bild jetzt über die sich vielleicht ganz schwach ist ein magisches Quadrat und den magischen Quadrate versteckt einmal die Jahreszahl an das Bild gemalt worden ist die Initialen des Künstlers wird das gemalt hat und dazu auch noch das Alter des Künstlers ist da drin steckt also können Sie sich mal angucken das Bild in der Wikipedia kann man sich das ganz genau einmal durchschauen das Problem dass all diese Information natürlich sehr versteckt in diesem Bild vor und wenn ich das Bild charakterisieren oder beschreiben möchte und solche Sachen finden möchte muss sich natürlich wissen nicht das ganze interpretieren und ohne quasi diese Bedeutung dieser die nicht zu den welche und sie benutzt worden sind was im Kontext bedeuten was die Pragmatik dahinter ist nicht dass ich irgendwie feststellen kann bin ich aufgeschmissen kann also nicht interpretieren worum es geht und kann das Bild wenn ich quasi nach bestimmten Sachen Suche hier auch nicht wieder auf das nur so als Motivation und auf einer deshalb
kümmern uns heute um semantische Suche was bedeutet Suche Suchtechnologie vom mit viel ist keine Verbindung mit semantischen Technologien die jetzt die Bedeutung der Information festschreiben erklären und miteinander verknüpfen und die man nutzen kann vom Menschen dazu müssen uns als
1. noch mal gucken was war überhaupt dieses vom 11. Betriebe das heißt es per Grundlagen wiederholen Sie sicherlich alles schon wird zum multimedialen Daten dort ist natürlich am interessantesten weil dort Information nicht nur als Text vorliegt sondern wie wir gerade gesehen haben in Form von Bildern oder können und dann schauen uns an über das ganze verknüpft bekommen mit unseren semantischen Technologien also jetzt in diesem Band 1. Analyse rein und dann schauen wir uns an wie das ganze genutzt werden kann so genannten in der so genannten explorative semantischen suche das heißt zu suchen wir hoffentlich bald in Zukunft nicht mehr dazu auch einige 2 kleine Anwendungen zeigen die das Ganze schon ok das ist das können wir alle
Suchschlitz mit Google Duden obendrüber hatte ausgenommen bei der besonders gut gefallen hat das Zeug zum ich weiß Geschichten Geburtstag von über 20 Tausend Meilen unter dem Meer das ist gut so aus dass Google steht unten drunter einfach aus dem Grund haben Sie vielleicht sind weil kann in Seminaren oder Vorlesungen drunter der das Problem die Welt präsentiert sich uns als eine Briefkastenschlitz den ich irgendwas eintragen kann und ich bekommen dann irgendwelche Ergebnisse zurück ja mittlerweile daran gewöhnt dass Suchmaschinen so funktionieren heißt aber noch lange nicht dass das quasi der Weisheit letzter Schluss ist das die einzige Möglichkeit effizient und auch überhaupt effizient eine Suchinformationen rankommt benutzt man gucken was passiert wenn in diesem Buche sucht ausreichend schreiben wir alle schlaf gut ist und folgt mir können mittlerweile wie wird hier eine sucht Vervollständigung das heißt man sieht Vorschläge was man weiter eintippen könnte und die Suchergebnisse das können Sie auch schon ein einziger zu verändern sich schon die Suchergebnisse die präsentiert werden das heißt also wird unter Usability Aspekten schon sehr sehr viel Arbeit abgenommen und man kann sie sehr früh erkennen welche Richtung geht denn die ganze Geschichte habe ich mich dann für irgendwas entschieden zum Beispiel für Schüler und wenig darüber was wissen möchte sieht man hier den wir schon aber Liste von Ergebnissen die das Tolle daran ist mittlerweile nicht mehr nur textbasierte Ergebnisse sondern auch man bekommt Ergebnisse der zurückzuziehen abgeschnitten worden man bekommt aus unterschiedlichen Kategorien Ergebnisse die man dann auch noch die haben kann mit diesen Fall selten man das an der linken Seite des Bildschirms dass ich kann nach unterschiedlichen Quellen Flüge nach Bildern Videos nach News und anderen Sachen die Sortieren ich kann nach Zeit man die Sache eingestellt worden sind Sortier und ähnliche Sachen also das heißt ich kann die Suchergebnisse nochmal zusätzlich nach inhaltlichen Kriterien filtern lange Rede kurzer Sinn hier stets nochmal also das Ergebnis ist eine lineare nach Relevanz geordnet Ergebnisliste das wichtigste nach Ansicht der Google Gemeinde steht obendrein dabei wird wenn unterschiedliche Relevanz Gewichtungen verwendet wird verkannte sicherlich schon mal gehört danach auch noch mal kurz darauf zu sprechen kommen oder der von ihnen hat noch nie was von und der gehört ganz anders erklären was es bedeutet dass die abstürzt die Abkürzung steht für Herrn Frequenz und direkte Dokumenten Frequenzen ist einfach einen es wie wichtig ein herum also den ein Begriff den Textdokument vorkommt für jetzt dieses Dokument ist in Bezug auf den ich suchen möchte also das heißt die Dieter den 2. aufkommt gesagt haben Dokument vor und die direkte Dokumenten Frequenz sagt wie selten oder nie einen deutlich charakterisiert dieser Tage das Dokument im Verhältnis dazu wir insgesamt Dokumenten kommt verteilt vorkommen sowie gut charakterisiert die seither das gesamte Dokument das ist die Idee von der vom Menschen Betriebe verwendet um herauszufinden welches Ergebnis als zu wenig oder welches Dokument das besonders gut zu welchen Tag sucht das Ganze mittlerweile auch ziemlich personalisiert jeder von der Google Benutzer hat und auch das räumliche heutzutage man muss nur einige suchen hintereinander durch 501 Suche Kontext angelegt das heißt in den Logdateien bei Google selbst wird dann entsprechend geguckt was suchen Sie was sie an welcher Kategorie von Suche können Sie zugeordnet werden danach wird der Patch wenn das Ranking die Reihenfolge der geht es in Zukunft dann entsprechend auch beeinflusst entweder nur während ihrer Sitzung oder wenn sie mit ihrem Nutzer eingeloggt sind persönlich für das eigentliche Problem das aber noch bei Google haben dass das folgende das verbirgt sich oben in der 1. Zeile also Sie kriegen wir zurück angeblich 4 Millionen 540 Tausend Ergebnisse recht kurzer Zeit steht Suche wird , 22 Sekunden benötigt das Problem ist aber wenn sie feststellen wollen ja ist das denn alles ist das wirklich vollständig wenn sie nie fertig mit dem überprüfen das generelle Problem ist halt ja wenn das was ich gesucht habe jetzt hier quasi auf Seite 25 Tausend 733 ist dann wirklich so bald auch nie nach dem was in solchen Fällen für gewöhnlich machen sie verfeinern das Suchergebnis weil sie wissen wie die Suchmaschine funktioniert das heißt sie versuchen noch weitere herum suchte hinzuzufügen die mit großer Wahrscheinlichkeit in diesem Dokument das die suchen noch mit vorkommt mittlerweile gelernt können war und wenn wir Glück haben erscheint das Ergebnis auf einer der 1. Seiten bei Google bei weiteren wir sowieso nicht als die 1. paar sollten anschauen der von ihnen hat schon mal mehr als 20 Seiten durchgeklickt bei Google immer mehr als 50 formal durchgeklickt oder hat nicht mitgezählt wahrscheinlich also die Wahrscheinlichkeit weiter wie diese Gefilde vorzustoßen ist doch sehr sehr gering und ich weiß nicht ob es mittlerweile also ist es war also muss ich mittlerweile soll sich von aller ermöglicht durchgeklickt haben nach 100 wird das Ganze auch irgendwie auf dann kommt man nicht mehr weiter dann kriegt man keine Suchergebnissen angezeigt nach dem 1. und derzeit kann sich das mittlerweile schon ok aber wie funktioniert klassisches in Form von viel forciert folgendermaßen wir haben eine große Menge von Dokumenten klassischen von welchen mit führen das Textdokumente wird das natürlich welche der Dokumente Webseiten mittlerweile auch Bilder Videos und andere Dinge und auf der anderen
Seite Informationsbedürfnis das heißt der ganze Menge von Anfragen der drüben das in dieser Zeit an der Wand und was ich machen muss ich muss die beiden mit zusammenbringen das bedeutet ich muss auf der einen Seite meine Anfrage in einer ganz bestimmten Sprache formulieren und ich muss auch meine Dokumente oder den Inhalt Dokument in einem bestimmten Sprache formulieren und dieses formulieren quasi Sprachen auch Indexierung und wenn man quasi eine indexiert der Länge von Dokumenten betrachtet und eine Anfrage dagegen startet dann wird über Ähnlichkeit der Anfrage und externen mit obgleich dieser was funktioniert mit dem Ziel quasi herausgefunden dass jetzt die am besten passendsten Dokument also was man macht man das Suchen und Finden wird auf die Bestimmung von Ähnlichkeiten zurück geführt insgesamt funktioniert also dieses vom Menschen wird viel Modell dass es schon in den sechziger Jahren aufgehört gebaut worden jetzt eine Welle mit angegeben der sollten unten Trunstädter war federführend Ende der sechziger Jahre damit aber es geht darum dass Informationsressourcen und Informations Anfragen zusammengeführt werden und man versucht quasi Informationen zu identifizieren und zu liefern quasi aus Partei drin sind als Antwort auf eine Informations Anfrage und das oder so von der Ähnlichkeit von Resourcen und den Anfragen ab und wie man das macht man ist bestimmte Attributwerte quasi aus den Dokumenten heraus während des Kriegs und sind das auch gleich noch sehen die man miteinander abgleicht also reduziert aufs Wesentliche sieht das so aus ich hab ein Dokument in dem Dokument sind welche Terme Schlüsselwörter dich identifiziert habe ich habe Anfragen in Form von Schlüsselwörtern und ich versuche da in eine Indexdatei einfach so ein Match quasi zu erzeugen und das ist das Ergebnis meines wird verbreitet sonnig Gewichtungen und ähnliche Sachen mit einfließen habe lasse prinzipiell geht man also davon aus auf der einen Seite geht man ja man muss ist die rote sollte hier seine Dokumente die man hat indexieren das heißt man muss die Informationen aufbereiten diese Indizierung SSH nach eine Form der Wissensrepräsentation bringen das wird irgendwann der Suchindex ist das was und das und auf der anderen Seite muss man quasi Betriebe Prozess die Suchanfrage auf diesen Suchindex abbilden und eine Ähnlichkeit Abfrage dann hier durch das kann man auf der Basis unterschiedlicher Kategorien oder unterschiedliche Modelle machen nicht jedes aus der Wikipedia geklaut das mal die unterschiedliche Modelle von welche Betriebe gegenübergestellt ist gibt es sich an der linken Seite interessant sind die mengentheoretischen Modelle ist das politische Getriebe das von gleichen anschauen mit gibt's algebraische Modelle die auf Vektor Darstellungen von Dokumenteninhalt beruhen und in der dort arbeiten und es gibt probabilistische Modelle die quasi Wahrscheinlichkeiten und Ähnlichkeiten über Wahrscheinlichkeiten quasi definiert das einfachste das mit viel oder einfach hier Tierqual oder vergleiche am Dokumenteninhalte anhand von Distributoren jetzt a und sie sind bestimmte diskret Toren und wenn ich die miteinander kombiniert das kann ich sehr sehr schön über aussagenlogische Begriffe oder Ausdrücke kann ich hier gehen und kann hier solche Schnittmengen selektieren wie beispielsweise eine Menge die hier aber nicht be enthält und gleichzeitig noch enthält das kann ich mir sehr schön formuliert haben funktioniert wie man sie mengentheoretisch das Problem ist die natürlich dann auch eine Menge zurück sind wie sie alle wissen ungeordnet das heißt hier hat man keine Reihenfolge kein keine differenzierte Gewichtung Design intern oder to drinnen und deshalb sind die Ergebnisse auf weniger zufriedenstellen insbesondere mit zu großen Mengen von Information arbeitet und sich wesentlich besser bezahlt oder besser sind die sogenannten Vektorraum Modelle wie sie hier sehen was man da macht dass man versucht ein Dokument darzustellen mit Hilfe eines Rektors dieser Vektor besteht aus einem Struktur war Vektorraum ist so groß wie viele Distributoren kompletter Dokumenten Corpus enthält das können Hunderttausende sei und Sie können jetzt quasi jeder einzelne Skripte steht für einen Teil des Dokumente vorkommen also von bestimmten Begriff nachdem ich suchen kann und die länger als Wahlsieg eines Rektors in einer bestimmten Richtung für einen bestimmten diskrete ergibt sich daraus quasi wie häufig der kam beispielsweise vorkommt oder nach anderen Formen der Gewichtung also da kann ich dieses die Idee mit einfließen lassen und andere Richtung Skript hier und da kann ich dann wirklich jetzt auch abhängig von der Gewichtung Anfragen machen die Anfrage dann so aus das Dokument das repräsentiert durch einen Weg durch diesen hochdimensionalen Vektorraum die Anfrage die schneller ist ebenfalls ein Vektor und ich versuche jetzt einfach nur Ähnlichkeit hat festzustellen dadurch nicht Winkel zwischen Abfrage und dem eigentlichen Dokumenten der betrachtet und kann Reihenfolge auch noch daraus mit den welchen Abstand haben denn die Welt quasi voneinander das kann nicht über die der Ferenc sehr leicht damit Problem dabei ist nicht weiter dokumentiert die als Vektor darstelle geht natürlich die lineare Anordnung der Term Dokument des das Dokument hat der Gewaltdarstellung bestimmt Reihenfolge wenn ich die durch verändert sich die komplette Bedeutung des Dokuments und das geht hier komplett verloren das heißt hier wird weil sie unabhängig von der Reihenfolge der haben in einem Dokument vorkommen so der gebildet und miteinander verglichen das heißt 2 Dokumente werden auch komplett identisch wenn sie genau dieselben Worte in derselben Häufigkeit enthalten aber die Reihenfolge komplett durch durcheinandergewürfelte der nach dem Modell werden bei der beide Dokumente dann komplett identisch das heißt das kann man auch nicht in jedem Fall so in der Art und Weise von der 3. Variante die so genannten probabilistischen Modelle die funktionieren meistens mit entsprechend Relevanz-Feedback unter versucht man quasi die Wahrscheinlichkeit der Relevanz von bestimmten Termin für einen noch unbekannt das Dokument abzuschätzen funktioniert folgendermaßen kommen in der Tabelle haben Sie angegeben auf den grünen Seite mit kleinen die 1 bis 8 der sind jetzt die Dokumente und oben drüber streiten sie die Herren und damit sie 6 verschiedene Tag in diesen Dokumenten und der wird einfach nur angegeben die seither kommt Dokument vor oder nicht das ist diese Matrix mit den 1 und 0 und in der grauen Spalte rechts das ist das Werk das heißt für eine bestimmte Anfrage Dienststelle sind waren die 1. 4 Dokumente relevant die letzten 4 Dokumente sind nicht relevant und dann kann ich und kann Gewichtungen bestimmen und berechnet war nach einer bestimmten Form wie ist dann ein bestimmter Teil für den einen bestimmten Dokument quasi relevant für die Suche Abfrage oder nicht und weil sie den kann ich neues Dokument hinzufügen kann diese per Gewichtung nicht ermittelt habe auf das neue Dokument anwenden kann dann darauf schließen weil sie das ist wahrscheinlich ist wenn ein neues Dokument die bestimmten Teil in der entsprechenden Formen enthält dann ist es wahrscheinlich auch relevant also ich kann diese Relevanz Gewichtung an mit den anhand der Häufigkeit haben die hier mit den 1 Gewichtungen versehen worden sind und damit kann ich quasi für die das beliebige Dokument abschätzen ob das jetzt für die eine Anfrage für die hier das Feedback schon mal hatte waren quasi ein relevantes Dokument ist oder nicht heuristische Betriebe Modelle kommen in der Praxis eigentlich gar nicht zum Einsatz aber sie sind theoretisch nachgewiesen auch nicht schlechter als die anderen aber auch nicht viel besser dabei schon mal sind bei dem Punkt was das besser was ist schlechter vergleicht man suche Maschinen vom welche Getriebesystemen miteinander ganz einfach durch ihre Genauigkeit und Vollständigkeit der Ergebnisse das muss man natürlich quantifizieren haben sich vielleicht auch schon mal gesehen das macht man über solche Kenngrößen wie und persischen hat noch nie was von kommen persischen können Sie alle prima Brown nicht viel zu sagen und bekommen es also nichts anderes als quasi die Trefferquote wieviele der insgesamt relevanten Dokumente Relevanz die roten und Dokumente sind die blauen und wie viele der relevanten Dokumente hab ich den insgesamt gefunden hier in der Schnittmenge das System Nico umgekehrt die Genauigkeit wieviele von meinem gefunden Dokumenten sind nun wirklich relevant ist wie der andere Teil in Bezug auf das sich insgesamt gefunden habe dass die persischen oder Genauigkeit wenig beide Masse
miteinander kombinieren komme ich zum genannten vielleicht hat er wirklich nichts anderes als ein gewichtiges harmonisches Mittel aus dieser Trefferquote aus dem Nicole und auch aus der Genauigkeit physischen und kann dann quasi als Maß zwischen 0 und 1 eingeben wie gut denn jetzt dieses wird wie wir das System arbeitet oder nicht anders als in diesem 1. bedeutet also 1 ist der normale 1 1 Warschau von Nicole und christlichen gleich gewichtet werden wenn das kleiner 1 oder größer 1 dieses als gewichtet man entweder den Nicole oder dort den persischen in seinem ergibt also können sich ankucken dass es zur Bewertung der Genauigkeit entscheiden gut bringt diese Suchmaschinen ins Wort wollte er stellen wir fest der habe so ein halb System ist verteilt werden Dokumente die untereinander verlinkt sind das heißt wir haben aber klassisch Dokumente wie in jedem anderen Betrieben ist auch die natürlich jetzt Gespräche mit der Skript wurden geschrieben werden und das Schöne daran dass zusätzliche Informationen haben andere Dokumente nicht notwendigerweise man hat hier Querverweise zwischen den einzelnen Dokumenten als es gibt diese links und diese Links werden wir sie sind relevant für die Relevanz Gewichtung ist für die Reihenfolge der geht es natürlich haben wir weil Web-Suchmaschinen Suchmaschinen erst mal das Problem sie müssen wie den kompletten Datenbestand also den zugrundeliegenden Dokumenten Corpus bereitstellen dafür sogenannte der Vorlage die nichts anderes machen als Tag und Nacht das Werk zu durchstreifen und Dokumente einzusammeln und zu indexieren und für die anderen Aufgaben der Verarbeitung von Suchabfragen aufbereiten der gibt es das sind Dinge die Betriebssystem in der Web-Suchmaschine statt der Crowley selbst verstand aus einer Vorlesung das aber wie es funktioniert startet so man hat also nur lässt die geht man durch die besucht der Corolla der dort oder stellt HTTP-Request an den entsprechenden wie wir so war er in der über die hier bekommt beschrieben ist legt das Dokument herunter sammelte runtergeladen Dokumente des Paares die heruntergeladenen Dokumente nach darin liegenden links durch also als wieder URIs heraus gesucht und die werden dann an die ursprüngliche URL Liste angehängt und dabei muss man darauf 8. dass man Dubletten vermeidet damit auch der vor dass ich mich im Kreis bewegt und ähnliches Sachen waren und das Ganze wird natürlich massiv parallele durchgeführt damit man auch die die Chance hat diese Milliarden Dokumente finden zu können bei der weiteren Verarbeitung diese Dokumente hat muss man natürlich muss erst mal Form bringen dass für die Suchmaschine zu verarbeiten sind das heißt Mark Informationen normalerweise werden oftmals entfernt liegenden höchstens würde Relevanz Gewichtung für bestimmte habe und was man macht Text Daten aus dem Dokument extrahiert hat man macht es mit Daten Normalisierung das heißt man muss die Daten natürlich alle erst mal Textformat bringen das heißt keine hatte es gibt auch andere Dokumente noch PDF-Dokumente Bozkurt Dokumente Word-Dokumente Wechsel Dokumente Port Dokumente alles Mögliche was der ist das muss man erst mal normalisieren das gleiche Format bringen dass man eine Textdatei vorliegen hat also die Rede ist von Text und wie wir das ist noch nicht Multimedia mit vielen Dank versuchen diesen Text einzelne Worte zu separieren die Worte separiert hat versucht man zu identifizieren was für eine Sprache handelt es sich bei diesen Text wahrscheinlich dass es dafür wichtig damit ich sämtliche vorkommenden Wörter in diesem Text normalisieren kann das heißt in eine Stammform zurückführen kann das heißt jeder einzelne das Hauptwort dass sich das wollen sie auf Grund von zurückführen damit sie einen Zahl die Mehrzahl den Begriff nicht zweimal aufnehmen müssen und auch nicht für jeden einzelnen Fall also jede Flexionsformen gibt es selten haben aufnehmen müssen sondern nur einmal das heißt man sucht nur den Wortstamm heraus der identifiziert quasi sämtliche Derivate von diesem Ort das den Prozess wenn man Gott und das war durchgeführt hat macht man meist noch ein so genanntes POS der Pathos bietet da macht man nichts anderes als dass man feststellt welches Wort jetzt genau welcher Teil Satz damit man identifizieren kann dass das Subjekt was das Objekt das das das Prädikat und damit man den Typ der einzelnen Worte identifizieren kann um festzustellen dass jetzt relevante was nicht relevante begrüßt und dann fängt man an aus diesem identifizierten 1 Ordner wichtigsten sind die so genannten geht als alles was in der Entität darstellen könnte der in der Linguistik und macht dann so genannte diskret to daraus aus dem nicht dann einen Suchindex Aufbau nicht entsprechend der Durchsuchung kann also Suchindex damit der schönen schnelles basiert meistens auf so genannten invertierten Datei in man hat also die einen Suchindex waren sämtliche Distributoren aufgelistet sind dass ist diese kleine Datei auf der linken Seite die jetzt verbunden beispielsweise der Suchbegriff Ananas mit einer invertierten Datei die jetzt steht in welchen Dokument kommt der Begriff
Ananas an welcher Stelle und mit welcher Gewichtung mit welcher Häufigkeit vor und über diese Welt jede Datei können Sie natürlich dann auch zugreifen welcher Datei tatsächlich der Begriff vorkommt dass die und die direkte Datei auf diese zugreifen und weiterverweisen können und über die sie noch Informationen drinnen haben wir häufig kommt dieser kam überhaupt vor was nur steht hinter ich konnte steht diese sowohl ist die beispielsweise hat Text jetzt hier als Überschrift verwendet oder wie auch immer und Relevanz Gewichtungen ermitteln zu können also der schnelle Zugriff Suchmaschinen erfolgt über solche Indexdateien Hilfe invertierter Datei es aber nicht darüber geredet wie funktioniert das mit der Reihenfolge Suchmaschinen bei Google Web haben wir die Links zwischen den Dokumenten und die link Popularität ist letztendlich dafür aus für ausschlaggebend wie relevant ist jetzt quasi ein Dokument oder ist es nicht und das funktioniert nach relativ einfachen Form dass ist jetzt nur der einfach oder die ursprüngliche beschränkt Formen die man vor 12 Jahren veröffentlicht worden ist von Google und mittlerweile mit der sehr unendlich vielen Feinheiten quasi Tuner worden ist so dass man nicht mehr genau sagen kann was funktioniert das jetzt tatsächlich mit quasi dieser Reihenfolge Berechnung ist eine ganze Industrie entstand die SCO Industrie sollte den optimistischen Industrie die ihren Kunden quasi Ratschläge gibt was sie tun sollen um ihre Webseiten möglichst hoch in die Ergebnisse für bestimmte Suchbegriffe bei Google befördern zu können und dass es ein zyklischer Prozess das heißt man startet im Netzwerk in dem Dokument die Gewichtung eines gibt werden oder geben diese nicht weiter sie nach dieser Form der oben und da kann man dann dann so lange rechnet sich ein Fixpunkt einstellt da sieht man dann quasi entsprechend der Link Gewichtung wie viele Dokumente quasi verweisen auf ein Dokument und dadurch wird sich dann auch wieder um die Gewichtung des Dokuments des Dokument weitergeben kann und da kommt man zu entsprechenden Wertungen was ist jetzt von hoher Relevanz und was von niedriger Relevanz es allgemein gut generell das hatten wir schon ganz am Anfang der Vorlesung festgestellt das World Wide Web die Folie kennen sie ist sehr groß werden Milliarden von Dokumenten wissen gar nicht wie es eigentlich sind also man redet hier von ziemlich großen Zehnerpotenzen von denen man irgendwie finden kann zudem ist diese Dokumente die aktuell zu finden sind noch nicht quasi der Weisheit letzter Schluss Social Networks Geschichten Multimedia Sachen alles Mögliche geht hier ich heute auch eine schöne Neuzeit gefunden bis jetzt ausgegangen davon dass quasi pro Minute bei YouTube 48 Stunden Video hochgeladen werden mittlerweile ist es so pro Sekunde wird eine Stunde also der Faktor ist mittlerweile 60 pro Minute den 60 Stunden Video hochgeladen zu YouTube der liebsten sehr schöne Animationen die auch von YouTube selber kommt das längst kann ich Ihnen mal mit Materialien stellen also das heißt es wird dieses Material insbesondere auch in diesem Internet das daraus entstehen kann auch in der allerersten Stunde gesehen wieder zusammen waren gibt es natürlich diverse Problemfelder von denen wird 2 noch mal ganz kurz Revue passieren lassen wollen das 1. Problemfeld Informationssuche wonach habe ich gesucht habe ich natürlich nach Golf gesucht und das ist aber hat sich auch Live-Erlebnis was man bei der Golf Bildersuche zurückkommt und sie sehen dass es bunt gemischt zumindest zwischen der Golf Golfsport und dem Auto bekommt man also die das Ergebnis im Golf von Mexiko mich jetzt nicht so schnell gefunden aber immerhin die zwar sind auf jeden Fall von DRAM mit dabei kann auch sein dass sich in der englischsprachigen Version gesucht habe wird Golf natürlich oft mit u. geschrieben der Golf von Mexiko als dieses Beispiel nicht weiter schlimm aber Sie wissen ja Sprache Mehrdeutigkeiten das gibt mir die entsprechenden Probleme bei der Information suchen das 2. Informationsextraktion da dachte ich zeigt diesmal nicht wird von der Bildzeitung Sonnenlicht zeigt ein Bild einer japanischen Zeitung bei der es selber auch nicht so genau sagen kann was drin weil da es sonst klarer oder auch nicht klar was bedeutet die Informationen die ich eigentlich sie das einzige was ich machen kann es ja ich kann mir wahrscheinlich denken welche Schrift zu welchen Artikel wird und ich kann in den Bildern bisschen das Erkennen von Star vielleicht könnte aber letztendlich der bleibt mir so kann ich mich Japanisch sprechen und schreiben kann eigentlich verschlossen und genau so sieht das auch die Suchmaschine müssen also wissen was bedeuten diese haben des Treptow Texte damit welche vernünftig suchen können damit welche vernünftig Information ziehen können und schon sind wir bei der eigentlichen an mit Daten das aber gerade gesehen können was eigentlich also der funktionieren diese vom Betriebe Modelle müsse gerade kennen gelernt haben interessant wird das Ganze bei Multimedia-Daten wenn wir uns hier Multimedia Analyse und Betriebe immer etwas genauer anschauen also vom rund
Multimedia suchen wir unser schönes Beispiel Suchschlitz wollen was suchen und antwortet Multimedia kriegt man dieses schöne Ergebnisse bei Google Video Suche kann ich Multimedia eingeben und bekommen dann natürlich Videos zurück und man sieht ja auch bei inszeniert neben den Videos die ich im Ergebnis aber steht natürlich von Multimedia Mitarbeiter und man fragt sich dann ja bekomme ich dann eigentlich zu diesen Ergebnissen oder wissen Sie denn dass diese Videos was mit Multimedia zu tun haben und nicht einfach ausgedrückt dass sie mit dem Space Shuttle sondern also steht auf für Multimedia hätte ich muss dazu natürlich gucken auf welche Webseite verweist das Ganze nicht
kommt auf die Website der NASA und wo man sich da Stückchen aus vergrößert anschaut sieht man das unter dieser Videos der TA Multimedia steht das heißt letztendlich an den Sourcecode Cook und sich mal anschauen was steht und die eigentlichen Links die auf diese Videos verweisen drinnen hat man Kontext Multimedia stehen das heißt die Google Multimedia Suche im Allgemeinen basiert auf den Link Kontext also auch wieder auf Text Dateien weil man davon ausgeht dass das Link Kontext steht das heißt dass innerhalb dieses H Ankertext und hat dann steht also zwischen diesen hat auf und Artikel dazu das ist die relevant und beschreibt den Inhalt des Bildes das ist quasi die Grundhypothese und danach wird die Suche zumindest bei Videodaten heutzutage noch gesteuert und bisschen besser ist die Situation mittlerweile schon bei Google wenn es nur um die reine Suche den bei der Bild zurück dort sind tatsächlich auch Mechanismen mittlerweile schon verfügbar bei Google die wird nach der Bild Ähnlichkeit das heißt sie haben die Möglichkeit beispielsweise Suchschlitz somit eine Kamera zumindest wenn sie Google Chrome benutzen und können dann eigene Bilder hochladen über sie können die URL eines dort einen bei der Suche und können dann nach ähnlichen Bildern suchen und sie sie hat sich dieses angegeben das sieht man schon wieder wieder die gleichen Bilder in anderen Auflösungen oder abgeschnitten gestaucht die auf welchen anderen Webseiten stehen das ist sehr schön für die Plagiat Suche oder auch quasi andere war sehr sehr ähnlich Bilder kann man ja dann also das funktioniert schon ganz gut funktioniert aber noch nicht mit Videos war auch sehr schwer ist zu sagen welche Video hat einen ähnlichen Inhalts sei ein Video das Spiel ja nicht nur wieso Kriterien eine Rolle sondern viele andere also muss das ganze die beschreiben das heißt das Problem das Bild können sie auch schon auf
einer Seminare zur Videoanalyse oder Multimedia Analyse waren das Problem ist wie komme ich an die Informationen über den einen solchen Multimedia Archiv drin liegen also verborgen irgendwelchen Filmrollen auf irgendwelchen Bandkassetten irgendwo in der Tiefe und da geht man normalerweise so vor können Sie auch schon mal digitalisiert diese Inhalte das ist ja oft notwendig da muss man sich ein notieren mit Inhaltsbeschreibung Informationen in Textform damit sie quasi eine Suche nach dem Inhalt zugänglich gemacht werden und dann kann man den als basierte Suche auf diesen textuellen Metadaten die man dadurch gewonnen hat aus für sein Problemen heutzutage ist immer noch größtenteils werden diese textuellen Annotationen oder Texte Metadaten manuell geworden und das heißt der sitzen Leute davor schauen sich Videos an oder die Film und beschreiben die mit Texten das dauert selbst bei sie den Leuten die sich aus mit dem diese betrachten in der Regel 4 bis 10 so lange wie das Video tatsächlich dauert es 4 bis 10 Mal Echtzeit und das heißt bei 100 Tausend oder Millionen von Stund an Video und Filmmaterial mittlerweile existieren ist das ein Fass ohne Boden das kann kein Mensch mehr bezahlen dass die zur notieren dass versucht man das mit automatischem mit wurden in irgendeiner Art und Weise zu bewerkstelligen was können wir alles ausziehn aus den Videodaten das wissen auch schon die die bei mir schon entsprechende Multimedia Analyse Seminar besucht haben wir wissen Video ist ein zeitbezogene mit dem es besteht aus einer Folge von lauter Einzelbildern müssen uns dazu natürlich dann die Einzelbilder anschauen den Einzelbilder selber sind beispielsweise in der Lage zu der Gesichter zu finden können Sie sich dann innerhalb einer Szene verfolgen schrecken wir können Sie wiederfinden Szenen die nach einem Schnitt oder ähnliches lieben wir können so genannte wie Konzept Päckchen für durchführen können feststellen können was verbirgt sich inhaltlich in diesem Bild ist es bei Tag bei Nacht aufgenommen ist drin ist es draußen aufgenommen und ähnliche Dinge die kann ich hier entsprechend Maschine also die kann ich trainieren klassifizieren und dann entsprechend entscheidend dazu kann ich Texterkennungen des irgendwo im Bild des nachträglich eingebracht das ist der obwohl Text in der Textes ist noch viel komplizierter weil der meistens verdreht gestaucht schlecht beleuchtet und so weiter ist und dann ist das natürlich allerwichtigsten angewandt Text hektischen auf die Logo Erkennung da geht es nicht um das man quasi was Insekt von Robert Weitz Management angeht Urheberrechtsverletzungen nicht sagen feststellen kann das jetzt aber nur visuell Geschichten die ich aus Multimedia-Daten ausziehen kann ich kann genauso gut noch den Ton Untersuchungen kann man Audio mein durchführen kann dort erst mal gehen kann das Video strukturelle unterliegen unter unterteilen nach Hause nach Gesprächsinhalten oder nach Audio wenn die ich kenne also ich kann erkennen dort hab ich Verkehrslärm dort hab ich Applaus dort habe ich Jubel nach dem Tor und ähnliche Sachen das kann ich sehr schön auch mit maschinellen Lernverfahren trainieren und erkennen und also das Beste was ich herausholen kann man nicht sauber aufgenommene Sprache habe insbesondere noch aufgenommen unter Studioqualität entsprechend Sport trainiert sind die also quasi von der Norm entsprechen sprechen kann ich kann sehr gut automatische Spracherkennung und Transkription der Sprache inhaltliche durch für auch gar nicht mehr drauf ein ist wenig nicht Inhalt dieser Vorlesung für uns ist wichtig wenn ich diese ganzen Informationen herausgezogen habe habe ich das meist textueller Form gemacht und diese Texte muss sich dann an die Multimedia-Daten dran dringend dazu gibt es spezielle Annotations Sprachen eine davon ist sie das ist also quasi ein mit Delta des britischen Standard kann ich und kann hier auf Basis eines XML Dialekt ist festgelegt worden ist beispielsweise zeigt sich der Bereich in einem Video mit Metadaten an Beispiel können sich dann gucken wenn ich das Hand-out ins Netz gestellt habe quasi annotieren genau so kann man auch einzelne Bildbereiche begann ob das Bild des oder statischen Bild entsprechend einer und mit diesem Metadaten die dann an den Bildern Einzelbildern beziehungsweise an Videos dranhängen kann man dann suche Maschinenbau und die auf Inhalte oder Videoinhalte dann quasi zugreifen können und suchen können und eine Suchmaschine die ich schon mal genannt ist ist unsere bis zur Suchmaschine die halt deutlich in der Lage bin ich dort einen Apollo Mond oder nun und Armstrong Empfindlichkeit tatsächlich auch hier Videos zur Mondlandung zu Apollo 11 und ähnliches und kann dann hier in den Videodaten die ich habe suchen herumstöbern navigiert aber das ist alles noch traditionell das heißt es textbasierte Suche interessant wird das ganze wenn nicht dann quasi in einer Art und Weise semantisch unterstützte Metadaten die einbringen will dass sich diese Texte Metadaten ich habe muss ich semantische Entitäten draus machen und die muss sich dann in einer Art und Weise wie der Suche nutzen und zwar so ein Dutzend das ist mir mehr nutzt oder dass sich Mehrwert habe der funktioniert das also eigentlich ganz einfach so dass man das was versteht man überhaupt unter semantische Suche was gehört alles dazu da gibt es noch keinen
festen Definition Satz sondern bei der Begriffsbestimmung hat man einige Sachen zusammengefasst also zum einen geht es darum dass ich meine textuellen Metadaten mit semantischen Entitäten verknüpfen muss das ist eine wichtige Punkt hat sich gerade schon den genannt so dass dann das eigentlich nicht mehr auf den Text alleine stattfindet sondern auf semantischen Entitäten bringt den Vorteil dass sich Union und bis jetzt für mich keine Änderung des Grund mehr schlechte Betriebe Ergebnisse zu bekommen war nicht eindeutig versuche alles auf Entitäten zu werden das heißt hier werden sprachlichen Mehrdeutigkeiten wurde auch Umschreibungen solche Sachen fallen nicht mehr ins Gewicht weil ich Texten die vieles bedeuten können eine eindeutige Bedeutung zugemessen aber und dann ein sehr sehr zielgerichtet das Getriebe durchführen kann also das ist ganz wichtige Sache Entitäten zentriertes Feldwebel hat höhere persischen willkommen als normale textbasiertes wird natürlich davon ab wie gut ich diese Zuweisung machen kann ist ein 1. Schritt das heißt in der Verknüpfung der Text Daten mit semantischen geht dann kann ich natürlich noch hier wenn ich alle meine Dokumente quasi verknüpft habe mit semantischen Entitäten ich kann natürlich ausnutzen dass zwischen den semantischen Entitäten Beziehung besteht das beispielsweise 2 Entitäten zum selben Typ grübeln oder das zwischen 2 Entitäten konkrete Beziehungen die auf eine bestimmte Bedeutung haben bestehen und so kann ich inhaltliche Ähnlichkeiten und Verwandtschaften ebenfalls noch Betriebe Prozess ausnutzen war nicht vom Inhalt ähnliche Dokumente sind vielleicht für mich auch relevant in der Suche die möchte ich natürlich noch mit zurückgeben und nicht heißt nicht nur in dem Sinne wie beispielsweise bei Video visuell Endlichkeit oder das was dieselben Metadaten verwendet werden sondern auch Metadaten miteinander in Beziehung stehen das müsse man noch nicht mal dieselben sein dass ich kann nach und suchen und ein Dokument das also quasi nur über den Ernst von geht und in dem 2 der Begriff dann fällt aber es gehört hat die zusammen zu wenig weiter der und quasi alle semantisch Entitäten mit meinen Semantik der Technologien als RDF die zum Ausdruck bringen kann sind ist das Ganze auch noch interoperabel weil ich hier interoperablen WebStandard Benutzer und ich nutze dann die Semantik auf der einen Seite nicht nur um die Inhalte zu beschreiben ich kann sie auch noch dazu nutzen quasi mein ganzes Video strukturelle und technisch zu beschreiben also dieses 7 was wir kennen gelernt haben dass die Möglichkeit geboten hat waren Abschnitte zeitliche Abschnitt Videos beispielsweise zu notieren räumliche Abschnitte in Bildern festzulegen und zwar notieren das kann ich natürlich auch semantisch machen kann seine ein Video besteht aus lauter Einzelbildern diese Einzelbilder haben räumliche Ausdehnung innerhalb dieser Einzelbilder kann ich Bereiche festlegen die ich nicht bestimmte Metadaten zu wurde das kann natürlich auch so machen dass es an ist und dass ich das auch und Semantik der entsprechend nutzen kann das generelle Ziele des magischen Suche ganz wichtig ist natürlich ich möchte die Ergebnisse verbessern meines vom Menschen Retrieval der Prozess ist auf der einen Seite quantitativ was so viel bedeutet die Ergebnisse sollen natürlich vollständiger sein als ohne Semantik und qualitativ sowieso zielgenauer sein ich möchte mit bessere Qualität meiner Suchergebnisse bezieht das es also die primäre oder das primäre Ziel der semantischen zu dass man noch mehr machen kann wirklich noch 2 eine mit der semantischen beschreiben von strukturellen und technischen Eigenschaften also bis 6 7 kann man semantisch ausdrücken das heißt dass jemand mal gemacht oder was viele versucht haben ist 10 7 Standard als Ontologie auszudrücken eine Version davon ist die 2007 entstand kommen Ontologie sich Chor und wurde Chief von Martin der ausgedrückt formalisiert Paul und damit großer Teile des 7 Standards sehr sehr groß ist also der Einsicht ausgedruckt anschauen fühlte doch einen gehörigen Platz im Regal und ist meistens so komplex dass es wohl selten vollständig genutzt wird aber quasi sie diese kommen Ontologie bildet das entsprechend ab und so kann ich dann auch hier gehen kann Regionen räumliche Ausdehnung Bildern an und Tieren kann als eine bauen Box definieren die ich dann irgendwelche Dinge zu ordnen entweder Texte oder dann halt Idealfall Entität zuordnen sieht ungefähr so aus jetzt zu mit 7 und Theologie Teil der ich hab den Bild dass das 7 Menschen das hatten bestimmt das Bild das ab das was ist aber dass es jetzt nur den Titel oder sowas also dass es und ich kann dieses Bild räumlich zerlegen das ist dieses Konto sich in der Region nicht genannt Regionen eine Regel eine räumlichen nachgegrübelt Bilder durch ein Polygon des Koordinaten nicht angeben kann und dann auch noch mal wieder das ist quasi eines theoretischen das bewegt sich nicht weiter die Pleite geht auf die die an diesem Punkt auf diesem Bild und an der bildet natürlich auch wieder was ab und das was ich da abbildet sind Fall bei einem Text sondern kann nicht mehr Entität hinterlegen die ich jetzt aus einer anderen Staaten Basis oder Wissensbasis sind hier kann beispielsweise aus der Wikipedia die Entität Astronauten und sagen hier wird ein Astronaut genausogut kann ich auch gleich sagen welche Astronaut abgebildet wird wenn ich weiß haben kann ich könnte ich dort dann auch Armstrong aus der Wikipedia wichtiges also das sich nach Art und Weise das was sich nicht nur mit Text beschreiben sondern mit Entitäten sind und dass ein Mensch manuell macht kann sich das natürlich direkt von Anfang an aussuchen wir oftmals die Situation dass wir zwar textuelle beschreiben von Bildern haben aber die haben wir keine Entitäten zugeordnet das heißt man muss je nach Art und Weise den Mustern den Text abends von für dieses Bild hat eine Entität zuordnen der Prozess dieses zuordnen wird dann oft bezeichnet als nennt die Telekom mischen und dann mehr und da muss man dann eine Entität zuordnen das wir dann danach auch Missen-Wilhams und das ist ein Astronaut und nahm ist eine Person und Astronaut das ist eine Berufsbezeichnung aus dem wissenschaftlichen Bereich und haben es gibt Leute die haben als mit oder als Beruf Astronaut und was wieder zu können ganz klar in der letzten Stunde schon kennen gelernt ist natürlich hier die ganze liegt Tag laut Dame genügend Entitäten drinstehen Klassen und drinstehen benutzen können um alle möglichen Dinge die wir haben quasi zu verknüpfen das heißt es an Ende haben sich das Video Video sind irgendwo textuellen Metadaten zugeordnet worden und die müssen dann verknüpft werden mit semantischen Entitäten die
wir hier aus dem links Täter Bereich bekommen das heißt sie können das wir mit Daten aus Lexikon also außerdem der sie können das mit biografischen Daten verknüpft mit geographischen Daten oder was auch immer sich da sonst noch entsprechend drin befindet die Frage ist nur wie funktioniert also wie funktioniert dieses einfach als schon uns mal an so einfach ist das nicht gar die Mama von aus der Hand zum Bild zugeordnet jetzt ein Text Armstrong betritt oder betrat als 1. Mensch den Mond dann würde das Mapping das sie gerne haben wollen so aussehen dass sie dieses Armstrong auf die Entität Armstrong deren Eigenschaften siehe hier in der Wikipedia wie sie von den nachschlagen können also da können Sie durchaus auch finden dass mir Armstrong ein Astronaut ist das quasi die Entitäten Armstrong auch hier die diesen Angst hat um den Hals und das quasi an eine also das auf befinden sich auch in der die wirklich das wir an vom Typ Fuchs also und ist und sie finden auch das Armstrong vom Typ Wikipedia oder Doppelpunkt Astronaut also das kann man hier finden kann man nachschlagen das würde uns entsprechend schon mal weiter helfen aber das bringt natürlich nur wenn wir genau diese Zuordnung zwischen Armstrong und Armstrong auch tatsächlich bekommen das heißt die Frage ist wie ich wirklich jetzt die für mich passende die war ich oben nur Armstrong stehen haben können sich vorstellen konnten natürlich nur nicht unbedingt darauf dass das Neil Armstrong was brauchen Sie um festzustellen ob das Neil Armstrong ist also ich find ich die passende Entität wenn sie versuchen wollen alles wissen wir dass Armstrong heißt in der Wikipedia sieht das Ergebnis ungefähr folgendermaßen aus also suchen wir sämtliche möglichen Kandidaten heraus und dann sehen Sie hier es gibt zum Begriff Armstrong mehr als 200 irgendwelche Dinge die reichen von Ortsbezeichnungen wie Armstrong und Halle oder abends von Florida Armstrong Textes County über den Armstrong Tunnel zu Personen Louis Armstrong oder es gibt ein Auto Armstrong banal Automobilmarke in den USA am Anfang des 20. Jahrhunderts und es gibt eine ganze Menge Personen die ebenfalls auf den Namen Armstrong tragen wir müssen wir aus rausfinden den welcher Armstrong das überhaupt gemeint was machen wir dann normalerweise wir schauen natürlich als Mensch auf den Zusammenhang das heißt wir müssen den Kontext betrachten darf jetzt der konnte das 1. mal vor uns auch so wichtig richtig im Vordergrund der hat mir die Begriffe Kontext und Pragmatik kennengelernt und Kontext wird quasi den Text betrachten wir oben haben mit der Kontext zu haben und natürlich aus den Rest der hier bestehe vertretenen Textteile gebildet und für uns interessant sind da natürlich die ebenfalls noch vorkommen können und Entitäten sind in der Regel die dem groß geschrieben werden in im deutschsprachigen Text das heißt wir werden noch der Mond irgendwie wichtig und der Mensch das heißt Armstrong zusammen mit Mensch und und könnten wir als Menschen schon mal den er das hat wahrscheinlich auf jeden Fall was mit mir und und zu und wenn sie das Ganze aber nicht als Text vorliegen haben sondern sie haben Armstrong als Steak ein Bild und sie müssen quasi haben oder gilt dies als Mensch natürlich klar dass steht auf dem Mond und das kann ich erkennen deshalb wird das dann dieser Armstrong wahrscheinlich nie Armstrong sein das heißt es wäre schön wenn irgendwelche anderen Text oder irgendwelche Bildinformationen noch gefunden worden während wir tatsächlich vorliegen können wie beispielsweise wenn ich jetzt den stehen das Ganze ist Mondpreis der Weltraum das das Land das Mondfähre die hat auch bestimmten am also das heißt komme ich schon an Information an entweder ein anderer Mensch hat das Gepäck oder ich habe tolle visuelle Klassifikator die feststellen können dieses Bild das auf dem Mond aufgenommen worden wäre eine Herausforderung so Christian gut das heißt wir müssen betrachten den Kontext Grundsatz Marmor zu verdeutlichen was war noch mal Kontext Kontext von lateinisch kontextlos verflochten ist quasi das Umfeld eines Wortes oder eines Begriffs und dessen Zusammenhang mit umgebenden Begriffen oder umgebenden worden und dadurch wird quasi die Bedeutung festgelegt also die Semantik Semantik man die manifestiert sich erst durch den Kontext Armstrong alleine als Text seitens noch gar nicht erst wenn schon und um haben haben wir quasi einen gewissen Kontext gegeben und wir kommen in die richtige Richtung das heißt die richtige Bedeutung wird festgelegt das müssen jetzt natürlich nach Art und Weise algorithmisch ab also immer noch immer aus von dem Text der haben und das was wir quasi als Entität identifizieren können werden sagte und erst mal das raus aus dem deutschen Text groß geschrieben ist das ist relativ einfach das heißt wir müssen für folgende Begriffe Entitäten finden für Armstrong für Mensch und für Text so und bevor wir wissen was das überhaupt alles zeigen kann müssen wir müssen schauen was könnte es potenziell alles sein das müssen wir alle Begriffe machen die wir im Kontext stehen haben das heißt wir müssen für alles was im Kontext steht man möglicher Kandidaten gegen die ich kann herausholen versuchen wir mal zu machen also ich hab ja meinen Text ich mach jetzt wird heute und setzt auf keine wird sich wohl alle aus erstmals für Armstrong wir uns noch dass man den ganzen kleiner Bruchteil dann hole ich mir das ganze heraus für den Menschen der sind so Sachen dabei das können sie es nicht mehr lesen der Mensch natürlich jungen steht dabei ist noch viele Menschen dabei die als Nachnamen beispielsweise Mensch heißt David Mensch Sport man spielen Mensch gibt ganze Menge Humor Mensch Menschen ist Mensch ist auch das Spiel Mensch ärgere dich nicht dabei zum Beispiel und es stehen auch Musik als Mensch Computer und sonst was mit dabei also da gibt es auch mit den potenziell gemeldet werden können und das ganze müssen auch noch für Montag machen da steht dann natürlich nicht nur der Mond und das steht auch der Mond auf Opera Klammer zu also eine Oper denselben Namen hat es gibt Firmen wie heißen sowie die von Nickel Company und es gebe ganz Leute die auch noch den Begriff Mond nahm aber wir müssen natürlich nicht feststellen wie kriege ich jetzt aus diesen Mengen von Informationen diejenigen raus die entsprechende meinen Kontext passen und als die 1. die man hat man versucht das irgendwie statistisch das heißt über Wahrscheinlichkeit weil jeder dieser Kandidaten die ich
herausholen kann sie ja potenziell in der Wikipedia da zu dieser Kandidaten gibt Informationen das heißt wir haben sie das nicht sagt das heißt Properties mit welchen anderen die Daten auf die hier verwiesen wird oder sie haben einen Wikipedia-Artikel dem letzten Zusammenhängen Text Lexikoneintrag über genau diesen Begriff steht die können Sie natürlich so entscheidend passen welche überhaupt miteinander zusammen oder nicht das heißt es beispielsweise wenn ich mir ein Armstrong heraussuche Amalie Louis Armstrong kann man natürlich sicher feststellen dass Louis Armstrong wahrscheinlich ein Mensch ist wenn wir Glück haben das heißt das Wort könnte dort vorkommen Wikipedia-Artikeln aber werden selten was finden das Louis Armstrong vielleicht was mit dem Mond zu tun das ist natürlich ein Armstrong ist die Wahrscheinlichkeit wesentlich größer also was man da macht es eine so genannte Kookkurrenzen Analyse auf Basis von einem vorgegebenen Referenz Dokumenten Korpus der in Fall die Wikipedia ist man versucht dann quasi den Text semantischen Entitäten zuzuordnen semantische Entitäten entspricht der Wikipedia-Seiten die wiederum die Wikipedia-Seiten entsprechen und ich muss miteinander kombinieren die auch tatsächlich irgendwie was miteinander zu tun haben und dann muss ich versuchen für jede Paarung von Kandidaten wie das werden ganz viele Variationen muss ich feststellen wie oft kommt beispielsweise Mensch das Album auf der Webseite von Armstrong in Florida vor meistens überhaupt nicht oder die aufkommen wohnt Technologies vor auf der Webseite von Mensch das Album das muss ich für alle kommen Kandidaten durchrechnen diese Kookkurrenzen kommt das zusammen ein und ich sowas ich heraussuche sind diejenigen quasi die bei dem die der größte gerade Übereinstimmung herrschte sowohl die Wahrscheinlichkeit ist dass die zusammen tatsächlich vorkommen und da kann man dann wenn man Glück hat die richtigen identifiziert dich sagt man aber man hat mich immer die alle Referenz Basis für Text Rokoko und das macht seit 10 oder 15 Jahren dass man da versucht quasi Zusammenhänge entsprechen so zuzuordnen die andere Möglichkeit ist aber noch ein bisschen mehr Informationen wir haben den ganzen Texten auch noch die links in der Wikipedia die sind auch wieder das heißt in der sind die ganzen Entitäten diesen sei nicht miteinander vernetzt verbunden wenn ich Glück habe über bestimmte Beziehung 30 ab und versuche der Wikipedia oder einer anderen Delta Quelle festzustellen gibt es hier Zusammenhangs Komponenten zwischen einzelnen Entitäten also in diesem Tag war ich habe sich schauen gibt es hier Zusammenhangs Scoop Komponenten möglich über die direkte Links oder auch direkte Links ich kann schauen gibt es hier klicken eventuell auch pseudo klicken um also bis hinab zu sprechen Sie wissen alle noch was klicken sind Komponenten starken Zusammenhang fest dass jeder Punkt Graphen mit jedem anderen innerhalb einer also miteinander verbunden sowas versuche ich zu finden und dann ist die Wahrscheinlichkeit auch recht groß dass das die richtigen Begriffe sind miteinander zu tun haben und in den meisten Fällen gelingt es einen dann eindeutig als diese Begriffe zu dieser regulieren und dann Textauszug korrekt eine semantische Entität zuzuordnen das ganze kann man dann auch noch in diesen semantischen Analysen oder Konkurrenz Analysen auch noch mit Hilfe maschineller Lernverfahren machen die auch nichts anderes als als probabilistisch dazu aber ok zum 1. Schritt quasi kann man lösen das ist jetzt nicht so ich möchte das nicht so darstellen dass das quasi gelöst werde das Problem sondern das ist ein Problem das nur so sehr schwer nur sehr sehr schwer eindeutig zu lösen ist weil sie haben eine vollständige Informationen über sämtliche Details quasi das Kontexts und das was macht das Ganze natürlich entsprechend schwer und oftmals die Referenz Dokumente diese benutzen auch nicht vollständig oder auch widersprüchlich mit Rauschen behaftet insbesondere Bereich hat wird es viele und gereimt halten und sauber halten und das macht das Leben schwer und das man am probieren welche Verfahren können denn hier möglichst hohe Genauigkeit liefern das es auch einer unserer Forschungsschwerpunkte waren wir können hinreichend gut müssen werden wir dann auch machen jetzt ist die Frage nach ich hab jetzt diese semantischen Metadaten wird sich die den jetzt genau eigentlich Suchprozess die nicht gerade kennen gelernt habe und das eigentlich ganz einfach kann man zusammenfassen auf einer schönen Seite das heißt semantische Metadaten wissen wir verbessern die Suche auf unterschiedliche Art und Weise auf der einen Seite kann ich kann meine Suchergebnisse erweitern das heißt vervollständigen sollte man daher besser schreiben und ich kann sie präzisieren das kann ich schon mit herkömmlicher vermischen Schütteltechnik machen ich gehe und suchst du entsprechender weitere mit semantischen Begriff die ich auch kann mit Hilfe semantische Technologien dass man es mit einem ich kann Querverweise zwischen Entitäten die nutzen Kurs fordern kann ich nutzen um Suchergebnisse zu erweitern zu vervollständigen und diese Beziehungen zwischen semantischen Entitäten kann nicht einmal natürlich nutzen Suchergebnisse zu visualisieren damit ich sehe was denn je nach Art und Weise miteinander zusammen und wenn ich das darstellte visualisieren kann nicht an diesem Suchraum ordnen Cluster und kann dann durch den Suchraum auch noch navigieren also das ist eine ganz andere Form der Darstellung von Suchergebnissen als wir das bisher kennen von Google bei diese strikte Artenliste habe unter der Bund nicht auch noch nutzen kann ich kann natürlich auch noch versuchen implizit verborgen Information herzuleiten mit Hilfe von diesem kann das Suchprozess nutzen dabei ziemlich darauf eingehen weil das wird dann noch mal eigene Vorlesung für sich gut einfachster fallen Erweiterung das heißt Vervollständigung Präzisierung von Suchergebnisse erst mal wollen so vervollständigen wissen der Schlüsselwort basierte Suche bei Google findet aufgrund der Mehrdeutigkeit der Sprache nicht alle inhaltlich relevanten Suchergebnisse das war das Wolf als es in anderen Sprachen anders kann auch noch mit Metaphern oder anderen Umschreibung des Begriffes charakterisiert werden jetzt kann ich kann natürlich sucht Phrase wie ich habe herkömmlichen Suchmaschine quasi unterstützen eindeutig zuordnen mit Begriffen wie ich finde quasi Wörterbüchern kann ich synonym mit zum ich kann Ober und Unterbegriff mit dazu ich kann aus und die ich habe da kann ich mir von und holen wir das heißt wir und dessen so Teile ganzes Beziehung der Begriff ist ein Teil der für und wenn ich nach Türgriff Suche ist vielleicht doch interessant oder nicht wenn ich nach dem Suche wenig für suchen oder Association die kann ich nutzen so dass sich ein quasi die nicht
ursprünglich die Bank gesucht habe und meine in dem Fall quasi die Bank als Kreditanstalt oder als Unternehmen dann könnte ich um auch Dokumente zu finden die von der Bank jetzt nicht unter dem Begriff Bank die Rede sondern unter dem Begriff der Sparkasse müsse sich die natürlich erweitern mit entsprechenden synonym die Suchanfragen traditionelle Suchmaschine konnte jetzt alles vor oder und können durch dieses völlig im mit Mitglied dieser oder die ich mit aufnehmen dafür sorgen das quasi möglichst vollständig traditionellen Suchmaschine das Ergebnis dann der ich nicht rein semantische Suchmaschine aber es ist einfach weil ich hier und da diese ganzen Begriffe letztendlich auf die die Weltbank und suche dann noch eindeutig nach der Titel also da bin ich ein Großteil der Probleme die ich harmlos aber wir haben ja hauptsächlich noch nicht richtig semantische Suchmaschine sondern traditionelle Suchmaschinen und wir können quasi die unterstützen mit Hilfe manche Technologien das ist schon ein bisschen semantisch suchen können genauso wie es mit der Präzisierung von Suchergebnissen also wissen ja dass viele nicht relevante Suchergebnisse aufgrund von ohne Beziehungen bekommen und das auszuschließen kann man die und kann Oberbegriff Unterbegriffe quasi den mittels UND-Verknüpfung zuordnen und kann dadurch seine Begriffe eindeutiger machen dass wir kann man und kann dann quasi entweder nach Bangkok Kreditanstalt suchen das kann man deutlich unterscheiden von Bank und Sitzgelegenheit oder von Bank und das wären sucht Erweiterungen den nicht quasi Versuche so Mehrdeutigkeiten aufzulösen in den ich quasi bei der Eingabe des Zugs Drinks mehrere Möglichkeiten was bedeuten könnte vorgeschlagen bekomme und mich dann für einen von 3 dann unter der entscheidet und diese Suchanfragen in einer traditionellen Suchmaschine auslesen müssen wir also damit kann ich zurück vollständigen und präzisiert Querverweisen auch interessant also ich möchte vielleicht Suchergebnisse mit zurück die jetzt nicht genau diesen sucht enthalten und dem Zusammenhang stehen das war das Beispiel dass sich ganz am Anfang gebracht hatte da kann ich ebenfalls wiederum Ontologie auch Konkurrenz Analysen aus repräsentativen Dokumenten Corpora benutzen Beispiel wäre ich hab die Suche Phrasen Armstrong ich finde zum Abend kommen der lediglich als Oberbegriff Apollo 11 und jetzt können ich und könnte quasi die Suche ausweiten automatisch nicht mehr Angst vor nicht genug findet auf Ergebnisse quasi die ebenfalls was mit Apollo 11 zu tun haben könnte könnte weitere Crew-Mitgliedern suchen und die Suche auch noch ausweiten beispielsweise auf andere Crew-Mitgliedern der sich gleichen sind Zusammenhang mit dem Begriff der Apollo 11 das heißt ich könnt ich feststellen Ansturm ist verbunden mit Apollo 11 über die Property den Rock mischen und es gibt noch andere Entitäten die ebenfalls mit dieser Entität über den Port mischen verbunden sind und da findet man dann die anderen von Mitglieder von Apollo 11 Michael Collins und was also damit kann ich dann den kann über solches das ist schon rudimentäres wiesen kann man sagen kann man versuchen und entsprechend Suchergebnisse mit Assoziationen Sinnzusammenhängen entsprechend zu erweitern und das wird uns jetzt eigentlich schon dahin dass wir gar nicht mehr zielgenau suchen sondern dass wir quasi der versuchen Suchergebnisse so aufzubereiten dass sich die nahen Umfeld meines Ergebnis sich befinden sich kann quasi den Suchraum besser erforschen kann und da kommen wir zu einer Geschichte die man sich explorative Suche explorative suchen das ist jetzt anders als versuchen wir nicht genau was ganz spezielles wieder möchte ich weiß wie es aussieht und ich weiß was ich eigentlich möchte sondern wenn ich nicht vom Ergebnis mehr oder weniger überraschen lassen möchte einfaches
Beispiel natürlich immer gerne unter dem Begriff so müssen nicht immer gleich suchen stellen sich vor Beginn der das Beispiel noch aus der letzten Stunde tätig sucht das Buch über das vor unsere Beispiele in der letzten Stunde als Mitglied der der angefangen hat von der das Haxl und zwar auch ganz bestimmt Ausgabe ich möchte die 1. Ausgabe im deutschsprachigen Raum wie suchen was ich da mache ist hier schon bildlich angedeutet ich gehe zum Bibliothekskatalog unschlagbar nach nach genau dem Namen des
Buches über und findet aus dieser Ausgabe die ich auch den möchte so weit so gut dass kein war schon interessant wird das Ganze dann wenn ich mir die Frage stelle ich hab das gelesen der über für das Volk war ich weiß es nicht genau was ich als Nächstes lesen soll aber ich kann schon mal sagen das fand ich gut also so was in der hat möchte ich wieder lesen was ich dann mache sich normalerweise zur freundlichen und fragt nach also ich habe dieses Buch gelesen was würden Sie mir den mit der Buchhändlerin oder die Computer Karin ist gerade in der Kaffeepause ich habe niemand den ich fragen kann das mach ich sich zu Zeiten als man noch in die Bibliothek und nicht im Internet nach geschlagen hat dass man normalerweise dorthin gegangen wo man das Buch gefunden hat das heißt ins Regal und hat einfach mal geschaut was ist links davon rechts davon um davon und davon aber geguckt ist da vielleicht irgendwas was mir gefällt das heißt in diesen Regale man die Bücher geordnet nach einer bestimmten Aufstellung Systematik das heißt Science-Fiction-Geschichten wie beispielsweise bei Gold oder dieses Problem ist der Fachbegriffen genau dieses Genre und die stehen natürlich oder wenn man Glück hat alle inhaltlich geordnet beieinander könnten vielleicht noch andere stehen oder zumindest würden die beiden Autoren des frühen 20. oder des 20. Jahrhunderts englischsprachige Autor des 20. Jahrhunderts ist das meistens geworden das find ich danach inhaltlich geordneten Kriterien nicht Dinge die mich vielleicht interessiert das heißt sich die durch das Regal stöbere und ich bekam ich dabei sogar Buch das jetzt nicht in direktem Zusammenhang mit meiner Suche steht sondern dass sich immer schon mal lesen wollte und über das ist ganz besonders freue dass das ist gerade entdeckt das heißt diese Formen der Exploration Suche wenig das übertragen wurde auf das Netz bis heute das wenn ich jetzt Versuche von dem ich nicht unbedingt genau von vornherein weiß wie nicht jetzt den Suchbegriff formulieren müsste um ein Ergebnis zu bekommen Sie wissen ja Paradigma heutzutage ist dass ich finde quasi ein Dokument in dem ich Suchbegriff eigentlich und ich weiß das Dokument vorkommen aber manchmal für diese Strategie nicht zum ziemlich hat keine Ahnung ich jetzt mein Paris zusammenstellen soll wirklich das zu denken oder das zurückzubekommen was ich eigentlich Suche insbesondere dann wenn die Ergebnisse komplexe einfaches Beispiel für Sonderaufgaben sie komplexe Aufgabenstellungen lösen das Salz in der Bibliothek oder sei es im Internet waren sie sollen ein Referat alle Präsidenten der Vereinigten Staaten halten wir das mal rauskriegen weil sie das nicht an die wenigsten von ihnen haben das parat müssen wir warten jetzt alle Präsident der Vereinigten Staaten das heißt sie müssen erst mal gucken dass von Auflistung von Präsident finden können Sie den 1 zu 1 zum Präsidenten die Informationen suchen die die die sie dann weiter verfolgt das heißt durch mehrstufigen suchen wo ich erst mal Suche ausführen muss um Informationen zu bekommen die ich brauche um weiter zu suchen solche komplexen suchst nach komplexe Antworten nicht angekommen die fallen auch unter den Begriff explorative Suche insbesondere dann wenn ich auch nicht in einem Bereich liege bei dem ich quasi den Fachbereich die Fachdisziplin überhaupt nicht kennen das heißt ich kann also nicht Vorbild oder nachdem ich die Suche des weiß ich auch nicht welche begrifflich ich eingeben muss um genau das zu finden oder wenn ich jetzt einen Überblick möchte über quasi alles zu einem bestimmten Thema und ich nicht die Möglichkeit habe in einem entsprechenden Enzyklopädie oder von nachzugucken und sicher gehen möchte dass das vollständig ist oder nicht vollständig dann würde ich mich auch Schritt für Schritt also durch diesen Suchraum muss die Kuppel ist da das dabei was sich Suche also das so komplexere Suchaufgaben fernab von dem zielgenauen suchen bei dem nicht genau weiß was ich möchte und da kommt man quasi so zum Stöbern zum Browsen als zum Suchen man das dann ungemein hat findet man dabei Dinge die man eigentlich gar nicht von den man gar nicht wusste dass man sie gesucht hat also man findet er möglicherweise irgendwas was man schon immer mal finden wollte zu vereinsamt bei Chancen das nennt man dann im Englischen gibt schönen Begriffs und für die gesamte die basierte so heißt es in dem Beschluss zu Deutsch ganz durch das Wort muss man sie auf aussprechen dass uns kann am das genau kann man dann mit Hilfe der Exploration suchen machen da kann man dann auch in als basierte Navigation quasi anbieten und kann dann Inhalte Besuch der sucht um so gruppieren dass man sie die vernünftig auf interessanten Fahrten durchforschen kann und das wollen wir versuchen quasi Netz quasi liegt das sollten wir haben irgendwie nachzubilden gut bei dem Buch Beispiele des hat die schöne neue Welt dazu find ich natürlich in der Information das heißt sie können nachschlagen zu den Fehler zu diesem Wort zu diesem Buch finden Sie Informationen und jetzt könnte dann natürlich drin stehen bei dem Informationen Hinweise darauf was soll ich denn als nächstes lesen wenn ich Glück habe aber sie denselben endlich Bücher sondern sie sie müssen daher auch mehrstufig dann quasi Verbindung dieser liegt derzeit laut verbinden oder nach für das Schöne neue Welt habe ich ein einfaches Beispiel aus wohl also Sie können sehr sehr einfach feststellen für ein Werk quasi ein Bibliografisches oder für den ein literarisches Werk können sie sehr sehr schnell feststellen wer hat das geschrieben ist der Autor das ist ein relevant Eigenschaft oder finden Sie das hat all das Haxl geschrieben und dann könnte natürlich ein naheliegender Schluss sein gibt es noch andere Dinge die dieser Mann geschrieben hat also nach dem gleichen Vorgehen wir gerade versucht haben die ein Crewmitglied Mitglieder von der oder zu finden können wir gucken was hat mir der das hat sie sonst noch geschrieben und das war natürlich andere Bücher dir geschrieben hat kauend Freund count ist nur einen ein Werk das geschrieben hat oder der DOS auf das schon oder ein Land das andere mitunter interessante durch ich hab nicht alle gelesen von das Haxl wenn ich aber sage ja schön vom selben Autor das interessiert mich vielleicht jetzt nicht also gibt es welche andere Autoren die schreiben wie das hat dann wieder die mir die auch eine sehr schöne Möglichkeit nicht keine Verbindungen zwischen Auto auch finden und Autoren sind oft so miteinander verbunden das quasi über ein bestimmtes Property außerdem Mitglied der und von deutschen festgehalten ist welcher Autor hat welchen anderen Autor beeinflusst finden Sie beispielsweise GPRS hat das Haxl beeinflusst aber auch umgekehrt das alles hat sich George Orwell beeinflusst hat rund wiederum können Sie feststellen dass die Michelle Rollback jetzt zeitgenössischer Autoren des Falls beeinflusst worden von und das Haxl jetzt haben sie die Autoren wissen aber nicht was ich von dem 1. sollen wo man sie noch nicht lesen wollen jetzt nicht an das Werk von von vorne bis hinten aufzudröseln sie war natürlich wissen was ist richtig an den Werken die dieser Autoren geschrieben haben könnten und daher ebenfalls wieder die Wikipedia weiter denn dort gibt es wiederum ein sehr schönes Property des menschlichen oder wenn sie das entsprechend verfolgen finden Sie hier dass Michelle bewegt hat Elementarteilchen geschrieben für die englische Ausgabe von meist oder George Orwell hatte 1984 als eines seiner bekanntesten Bücher geschrieben oder der hat die Zeitmaschine gestellt und damit quasi könnten Sie jetzt ihre weitere Lektüre befruchten und dann in der gleichen Art und Weise haben entsprechend quasi neue Dinge finden die für Sie interessant werden zunächst als wenn Sie sagen das ist schön und gut ja das von vornherein angeguckt und haben festgestellt werden ich Lektüre Suche wenn ich Literatursuche ist natürlich der Autor wichtig und wenn ich den Autor keine interessieren mich andere Autoren die mit meinem Auto in Zusammenhang stehen und was die geschrieben haben insbesondere die wichtigsten Werke von denen das muss ich aber das ist alles was ich von außen manuell bestimmt in denen wir uns überlegt haben was bedeutet das Ganze des das Problem ist ja wie komme ich denn überhaupt dazu festzustellen das ist wieder
eines der Probleme die wir in der letzten Stunde schon kennen gelernt haben bekommen mit überhaupt dazu festzustellen welche dieser ganzen Eigenschaften wie ich aber sind tatsächlich relevant wenn auch für das heißt sie 400 Fakten der Weg der sich über 70 Properties also Eigenschaften ohne Reihenfolge ohne Relevanz Bewertung und die Frage ist nicht jetzt heraus was es wichtig dass es unwichtig was kann ich in meinem Kontext hier überhaupt verwendet als Vorschlag und genauso wie das 1. Mal angedeutet war Möglichkeiten geben heuristisch die Relevanz Bewertung von diesen Fakten durch das kann man natürlich über Popularität bestimmte Faktoren machen kann sogar ganz einfache statistische Verfahren machen aber man kann es auch über semantische Verfahren die man den Grafen semantischen analysiert machen wir hatten das 4. Mal kennengelernt der gefragt Einstein was war wichtiger dass Einstein digital oder das Einstein Physiker war und haben festgestellt überhaupt über diesen Link Graf Verknüpfungen dass es einfacher ist oder dass es wahrscheinlicher ist dass die das Property Physiker für Einstein die wichtige Eigenschaften ist und am das Problem bei der Sachverhalt ist man muss versuchen mit Hilfe solcher mystischen Verfahren die so anzuwenden das möglichst generisch das heißt für alles passen dass sich neutral objektive oder auch mit gegebenen Kontext eine Relevanz Gewichtung der Fakten vornehmen kann und das ist relativ schwierig was wir das letzte Mal gesehen haben dass es nach einem von sehr sehr viele Möglichkeiten die dann die und sie werden jetzt in den nächsten Übungsaufgabe auch dass dies das Problem gestellt bekommen was könnt ich denn für Heuristiken überlegen was könnte den ausschlaggebend sein dafür dass so ein sagt wichtiges oder nicht nicht da müssen sich die Wikipedia mal angucken zum erreichen müssen sich überlegen woran kann nicht erkennen dass es dafür wichtig was es unwichtig und noch komplizierter oder sondern noch schwieriger ist jetzt haben sie nach Urlaube ist die festlegt für bestimmte Dinge was ist wichtig was es unwichtig jetzt müssen Sie müssen diese Heuristik neutrale objektiv war passt das den überall in jedem Bereich und sind andere Leute ebenfalls der gleichen Meinung ich dass die Sache nicht jetzt gefunden habe relevant wichtig sind also die Information ist ebenfalls sehr schwierige Geschichte aber einfach Beispiel wenn ich also Grunddatenbestand nach das Taxi Suche und dort die Entität das hat und zugleich eine Property mit dem ich weitermachen kann und ich macht das die so warm wie das am Anfang gesehen haben bei dem Apollo Beispiel find ich dort vielleicht folgende 3. einmal ziemlich ich das hat der hat beeinflusst Cecilia Ärzten auf der anderen Seite finde ich schaut Schraube der hat bei einem oder ist beeinflusst wurde der beeinflusst eines Welt interessanter sollte ich das Heizlüfter also stellen sich vor einer 2. Zeile steht ebenfalls des hat dementsprechend waren leider auch noch hier englisch Science-Fiction-Schriftsteller finden Sie das ist jetzt hier nochmal dargestellte Bild nicht als 3. wurde da war dass er das heißt wir haben etliche weil das hat beeinflusst hat der Glaube beeinflusst alle 3 waren vom selben nämlich ja also nicht Science-Fiction-Romane das dann kann man davon ausgehen dass könnten die relevante oder wichtige Fakten seien die ich weiter verfolgen kann also das ist ein Beispiel wie man hier arbeiten kann und dass das ist nicht nur theoretisch es Beispiel ist sondern dass man da tatsächlich den implementieren kann und Suchmaschinen weiterverwenden kann zwar nicht versetzt die
letzten Punkt aktuelle Projekte in dem der versucht haben genau solche Sachen Relevanz Bewertungen schönes semantische Suche von explorative Suche tatsächlich anzuwenden Beispiel unverzeihlichen als
einen als 1. am Restaurant in der 2. Version und ich zeige Ihnen unser Media Projekt ganz neuen Demonstrator doch vorher noch
nicht öffentlich gezeigt habe ich von mit vom Jahr ob
und die Synchronisation ausschalten beziehungsweise einschalten und von dem es meiner
kleinen schalten sich allein Auflösung von 1028 mit mit 68 Punkten schützen Israels von über Auflösung und das ist also der bis zu 2 sieht nicht aus wie das Jurist dass sich schon gesehen haben was man dort machen
kann dass man kann dort Suchabfragen auslösen wie und kennen und stellt können normale könne man auch auf Ersuchen mal gucken was passiert ich noch nicht probiert
wird gesucht und sie sie ist wird auf das Niveau der zugeordnet George Orwell auch selber ist schon vielfach frierender Seite gefunden worden irgendwo und am MIT Orgel selbst hat zu tun mit Frankreich genannt ist zudem ein nur mit einer richtig das bieten George Orwell normal anklicken und suchen aber 2 Suchergebnisse dazu hier endet am Rand sogenannte Vorschlagsliste oder dann ist quasi das ist interessant für George Orwell versucht das mal zu
vergrößern da sehen Sie hier quasi am es gibt ist was hat mit Schaltungen zu tun der Platz London dazu nicht 83 Ergebnis im Suchergebnissen künftig antreten könnte ich mir Anschauung ich kann mir anschauen wie hat den George Orwell beeinflusst zu weitere Autoren kurz vor mir Gottchen um Chomsky das ist der Chomsky-Hierarchie fand sich noch einmal genannt haben dann hat sich George Orwell natürlich irgendwas was zu tun mit Burma besser geboren worden dann aber was zu tun mit Katalonien der hat wie auch im Spanischen Bürgerkrieg glaube ich nicht beteiligt natürlich was mit mir zu tun oder auch gewohnt hat es ist auch sein Geburtsort angegeben und hier steht auch noch von dem man selber beeinflusst worden ist zum Beispiel und von außen 12 von scheint Scholz und als die können und so weiter und so kann ich jetzt nicht davon ein anklicke entsprechend die Suche nach weiteren nicht man bisschen Erkenntnisse zu gibt beispielsweise England war schon was passiert noch das Ganze
noch bisschen kleiner dann hat man die
Ergebnisse zu England also
hier Videos man kann bei den Videos die sicherlich sich die
Einzelbilder zu gucken was gehört dazu die mit was zu tun ich kann mir weitersuchen ich find ich beispielsweise England hat was zu tun mit dieser wird derzeit vielleicht endlich auf zugeordnet oder mit Gordon
Brown Premierminister für was zu tun ist kann auch ganz
andere Sachen suchen also anderer Autor dämlichen ausprobiert hat über pro Barrel pro sicherlich nicht
pro alleine gebe es ist mehrdeutig das heißt es könnte auf der einen Seite bedeuten die Abkürzung PO Power over Internet auf der andern Seite könntest bedeuten und Edgar Allan Poe und je nachdem was sich damit gemeint habe ich dann unterschiedliche Vorschläge wie ich die Suche weiter durchführen kann
auch Internet lesen Sie etwas mit dem Opfer seine hat das Internet zu tun ich kann also nach weiteren Begriffen suchen wir nahmen nach seiner
selbst oder nach dem die die
hier damit zu tun haben und bei der hoffentlich halt ok da natürlich die Tag der vollkommenste und es hat geschrieben anderen Dingen Staat Short stories geschrieben wollte nur begraben worden und ähnliches find ich daran dazu das heißt man kann sich hier durch den Suchraum durch das man sich immer gleich wie viele Ergebnisse sind in dem zugeordnet und bekommt so Gefühle was ist in diesen 10 Tausend Videos oder kommt eigentlich verborgen sind was ist was kann ich da eigentlich jetzt ist das Jurist
davon bisschen älter sowie das
vorliegt hatten wir schon vor 2 Jahren ermöglichen es weitergearbeitet Projekten die war einst der Projekte sich hier
noch Zeugen möchte ist das Projekt der wo muss ich noch mal neu war im Projekt mit
der Club geht es darum dass wir kommen das Archiv der die Fachspektrum das ist ein Filmarchiv für Berlin die verwalten Filmmaterial aus der ehemaligen DDR startet irgendwann in der Nachkriegszeit bis in die frühen Nachwendezeit und das Tatsachen die dokumentarisch produziert worden sind für das DDR-Fernsehen oder auch für andere Institutionen der der Sie sehen dass ist nicht unbedingt für die Bildschirmgröße eingerichtet haben und mischen
sie eigentlich ist das eingerichtet auf glaubt 1980 Tausend 20 nicht ganz ist der größte wir suchen was passiert wenn sie was wenn ich nicht anfangen Eingabe zu
machen bekommt man hier
entsprechend schon Vorschläge entsprechend dem was ich eingetippt habe genauso wie bei Google dass man sie entsprechend auch noch disambiguiert macht es noch ein Stück größer dass man hier
entsprechen noch disambiguiert das männliche Berlin eingeben möchte ich hatte schon alles eingegeben sich hier beispielsweise Events zugeordnet Internationalen Filmfestspiele Berlin ich sie Orte zugeordnet Berlin selber dann kann man ja noch unterscheiden nach West-Berlin aus Berlin Berlin Schalotten Charlottenburg Berlin-Kreuzberg und man kann auch nach anderen Wegen nach der Berliner Mauer war nach dem Getriebe das was mit zu tun hat dass schlimm oder sehr kommt oder anderen suchen das heißt ich kann mir genau die Entität aussuchen nachdem ich eigentlich so möchte die
Zigarren sie um mich so kurz
nach der geht in Berlin das ist ein Ort wo man Zahlen das Übersicht
bekommen dann sind Sie hier Suchergebnisse die ich durch Scrollen kann noch weiter und viele viele Suchergebnisse die alle was mit ihnen zu tun haben sich von große dass man damit sie oder er kommt gut
nicht groß man darüber wie sieht man
Berlin Metadaten wir machen auf diesem Bild hat kann auf diesen Dateien auch Ozean das heißt Charaktere da findet man manchmal interessante Sachen oder auch gar nicht zu gesehen und
und kann sich dann die Videos und seinen Titel sprechen noch anschauen gucken ob das wenigstens für die einst das Video
kommen man sich jetzt aber man hört was also dass wir uns dann aber kann wieder
schließen ok immer mal wieder hierüber interessanten ist dann
noch der Bereich der sucht Facetten und anders als das weil als sie das bei bei Google gewohnt sind haben können Sie hier auch noch nach Inhalt Qual ist das dann und zwar können Sie hier nach Personen die in den Suchergebnissen vorhanden sind für den sie können nach
Ereignissen filtern sie können nach Orten filtern und das Schöne ist auch hier wenn sie quasi
drüber die ziehen sich schon entsprechende man könnte
Auswirkungen auf die Videos die hier entsprechend mit
Obst betroffen sind und sie dann
sogleich wie wieviel Videos sind dann wahrscheinlich Suchergebnisse wird und wo man
das was man sieht es nicht besser also das
Problem ist dass es zwar weit über
die aber man kann jetzt hier
einschränken beispielsweise nicht die auf Walter Ulbricht und sollte sich Videos bekommen die sowohl mit Berlin als mit Walter Ulbricht zu
tun haben Suchanfragen ausgeführt worden sind entsprechend
weniger Geld sie sie jetzt hier oben steht und Walter Ulbricht Mitarbeiter und man hat gezielt diverse wieder der Magazine die in Berlin und Walter
Ulbricht von Metadaten Text müssen oder in der Spracherkennung ist wird auch Spur oder Transkription gemacht entsprechend vorkommt was jetzt noch nicht ist ja auch der explorative Charakter weil man dann natürlich jetzt auch noch entsprechend vorweisen kann mit
der die Zusammenhänge wissen wie
Walter Ulbricht quasi was zu tun hat und man kann jetzt auch wieder die Suchergebnisse sich noch weiter filtern sondern wieder nach außen auf 9 Suchraum quasi durchqueren wenn man weiß wie es sind die die
Entitäten die man ja hat wie inhaltlich miteinander verknüpft das könnte nicht jeder irgendwie noch interessiert dass der Club Archiv können Sie leider nicht Gewalt aufgrund von der rechtlichen Bestimmungen was die Inhalte der Videos an die die Details der restriktiv dafür gibt es aber für das mit Lob für unsern alten Demonstrator ein Video das ich ankucken können um zu sehen was man damit machen kann also der namens GRASS produziert dürfen wir veröffentlichen das dürfen wir noch nicht öffentlich ins Netz stellen weil man möchte die für die Inhalte die man sich angucken und dann auch in späteren herunterladen kann Geld verlangen und deshalb ist das hier dementierte Boris du können sich aber
ankucken gelingt es dann entsprechend dem Materialien beziehungsweise in den Präsentationen die war mit drin so so viele also zu
aktuellen Projekten 2 Stück davon ist und wiederholt ich mal zeigen dass mit der Dialog mit anderen gehen wird dann als so genannte Semantik Media Explorer das heißt da wollen wir dann auch später andere Inhalte nicht dass die zahlreiche unterbringen sondern auch das was wir vorhaben oder was auch immer den Semantik mit der Explorer stellen wir dieses ja auch auf der CeBIT aus sollte man sie auf der CeBIT können sich das noch mal in aller Ruhe ankucken Mandat von besuchen kann ich das also 2
von den Projekten die welche im Bereich der semantischen Suche mit dabei gar damit immer mit den Stoff durch 14 Vorlesungen mit geballter Informationen alles ist natürlich wichtig wie Sie wissen für die Klausur manche Sachen wie manche weniger darüber können wir dann entsprechender Konsultationen
der nächsten Woche ich hab Materialien zusammengestellt hier die Folien dazu dass Präsentation ständig jetzt gleich im Anschluss ins Netz das für das Problem ich bis 5 Minuten vor der Vorlesung an der Präsentation gebastelt deshalb stand noch nichts entsprechen letztren aber sofort einstellen Übungsplatz gibt es auch noch heute oder morgen das war es dann soweit sie Fragen zum wurde zum Stoff zu allen möglichen den Abend kommen bei mir vorbei kommen sie bei den Übungsleitern vorbei die Beantwortung der Frage beziehungsweise nächste Woche noch einmal vom und Konsultation das war's dann
p-Block
Faktorisierung
Firewall
Anwendungssoftware
Datenmodell
HTTP
Strukturierte Daten
Binder <Informatik>
Normalvektor
Schnittstelle
Kugel
Punkt
Goldener Schnitt
Magisches Quadrat
Information
Information Extraction
Quelle <Physik>
Länge
Vervollständigung <Mathematik>
Gewicht <Mathematik>
Google
Benutzerfreundlichkeit
Kategorie <Mathematik>
Datensichtgerät
Web-Seite
Ranking
Frequenz
Richtung
Logdatei
Patch <Software>
Menge
Suchmaschine
Anwendungssoftware
Information
Multimedia
Algebraisches Modell
Kreis
Datei
Wissensrepräsentation
Darstellung <Mathematik>
Länge
Punkt
Matrizenmultiplikation
Gewicht <Mathematik>
Welle
Poser
Term
Ausdruck <Logik>
Richtung
Mittelungsverfahren
Vollständigkeit
Relevanz-Feedback
Informationsmodellierung
Bildschirmmaske
Attributwert
Suchmaschine
Schnittmenge
Skript <Programm>
Abstand
Indizierung <Informatik>
Kategorie <Mathematik>
Tabelle
Stochastisches Modell
Kennzahl
Gewichtung
Heuristik
Ruhmasse
Abfrage
Betriebssystem
Ähnlichkeitsgeometrie
Vektorraum
Vektor
Zahl
Menge
Automatische Indexierung
Wort <Informatik>
URL
Tor <Netzwerk>
Information
Multimedia
Internet
Faktorisierung
Datei
Gewicht <Mathematik>
Gewichtung
Berechnung
Binder <Informatik>
Web-Seite
Informationsmodellierung
Bildschirmmaske
World Wide Web
Suchmaschine
Computeranimation
Version <Informatik>
Information
Zugriff
Fixpunkt
YouTube
Information Extraction
Multimedia
Videodat
Web Site
Datei
Google
Content <Internet>
Google Chrome
Auflösung <Mathematik>
Binder <Informatik>
Web-Seite
Information Retrieval
Multimedia
Telekommunikation
Objektklasse
Punkt
Tiefe
Polygon
XML
Metadaten
Suchmaschine
Automatische Spracherkennung
Schriftzeichenerkennung
Videodat
Endlichkeit
Content <Internet>
Softwarepiraterie
Empfindlichkeit
Ähnlichkeitsgeometrie
Sound <Multimedia>
Wissensbasis
Hausdorff-Raum
Dialekt
Echtzeitsystem
Multi-Tier-Architektur
Version <Informatik>
Information
Schnitt <Mathematik>
Koordinaten
Standardabweichung
Aggregatzustand
Erweiterung
Vervollständigung <Mathematik>
Zusammenhang <Mathematik>
Punkt
Matching <Graphentheorie>
Datenparallelität
Kontextbezogenes System
Web-Seite
Klassifikator <Informatik>
Richtung
Metadaten
Textur-Mapping
Vollkommene Information
Menge
Suchmaschine
Komponente <Software>
Suchprozess
Wort <Informatik>
Information
Kleiner Bruchteil
Zugbeanspruchung
Erweiterung
Zusammenhang <Mathematik>
Datenparallelität
Suchmaschine
Statistik
Faktorisierung
Internet
Zusammenhang <Mathematik>
Physiker
Content <Internet>
Browser
Gewichtung
Heuristik
Binder <Informatik>
Zeitreise
Bildschirmmaske
Suchmaschine
Information
Punkt
Hypermedia
Version <Informatik>
Synchronisierung
Bewertung <Mathematik>
Logische Schaltung
Internet
Metadaten
Datei
Zahl
Ereignishorizont
Google
Ereignisgesteuerte Programmierung
Metadaten
Zusammenhang <Mathematik>
Content <Internet>
Systemidentifikation
Content <Internet>
Information
Kombinatorische Gruppentheorie

Metadaten

Formale Metadaten

Titel 13 Semantic Web Technologien - Semantic Search
Serientitel Semantic Web Technologien WS 2011/12
Teil 12
Anzahl der Teile 13
Autor Sack, Harald
Lizenz CC-Namensnennung - keine kommerzielle Nutzung 3.0 Deutschland:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen und nicht-kommerziellen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
DOI 10.5446/14262
Herausgeber Hasso Plattner Institut (HPI)
Erscheinungsjahr 2012
Sprache Deutsch

Inhaltliche Metadaten

Fachgebiet Informatik

Ähnliche Filme

Loading...