01 Semantic Web Technologien - From Internet to Web 2.0
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Serientitel | ||
Teil | 1 | |
Anzahl der Teile | 4 | |
Autor | ||
Lizenz | CC-Namensnennung - keine kommerzielle Nutzung 3.0 Deutschland: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen und nicht-kommerziellen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen. | |
Identifikatoren | 10.5446/14282 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache |
Inhaltliche Metadaten
Fachgebiet | ||
Genre | ||
Abstract |
|
00:00
Neuronales NetzWorld Wide WebSystemtechnikSemantic WebHTTPBlu-Ray-DiscWeb logEinfügungsdämpfungInhalt <Mathematik>ALT <Programm>Semantic WebMathematikerBerührung <Mathematik>Computeranimation
01:45
Semantic WebMenütechnikAnalysisInformation RetrievalMultimediaStrukturgleichungsmodellIDLWeb logWEBInformationWissensrepräsentationInformation RetrievalSemantic WebOntologie <Wissensverarbeitung>MultimediaComputeranimation
03:51
Semantic WebAnalysisWurm <Informatik>InformationUniformer RaumWEBComputermusikLokales MinimumWeb SiteMatroidInformationsmanagerAusgleichsrechnungContent <Internet>BASICDatenstrukturInformationAnwendungssoftwareZugbeanspruchungWEBRundungWeb-SeiteWeb logSemantic WebWissensrepräsentationVersion <Informatik>ÄhnlichkeitsgeometrieWeb Sitep-Block
08:30
Semantic WebContent <Internet>WEBWorld Wide WebBASICXMLRDF <Informatik>Microsoft NetworkHidden-Markov-ModellMultimediaKeller <Informatik>LINUXEinfügungsdämpfungWeb-SeiteInformationWEBRichtungGoogleAttributierte GrammatikDatenbankKünstliche IntelligenzPrädikatenlogikRechnenWissensrepräsentationSoftwareVerfügbarkeitZahlDatenbanksystemAnwendungssoftwareAussagenlogikInformatikerAussage <Mathematik>VerschlingungWeb-SeiteTerminologische LogikWorld Wide WebHTMLVolltextOntologie <Wissensverarbeitung>Social BookmarksLinked DataFolge <Mathematik>Relationale DatenbankBeschreibungsspracheAbfragespracheCW-KomplexFormation <Mathematik>Quelle <Physik>p-BlockSemantic WebComputeranimation
17:58
HTTPSemantic WebBASICContent <Internet>WEBWorld Wide WebInternetSemantic WebPerspektiveWEBInternetRechnenComputeranimation
19:31
Larry <Programm>Inverter <Schaltung>InternetACCESS <Programm>Sound <Multimedia>Information RetrievalBetriebssystemInformationRechnenZahlProgrammiergerätBordcomputerDateiDownloadingGraphische BenutzeroberflächeInternetPolarkoordinatenBinärdarstellungOffice <Programm>BrowserMulti-Tier-ArchitekturTuring-TestInterface <Schaltung>ZahlenbereichZugbeanspruchungWEBARPANet
23:59
HypertextInternetWorld Wide WebIntranetBerners-Lee, TimWEBDokumentenverwaltungssystemComputeranimation
25:50
Gleitendes MittelWEBInformationACCESS <Programm>Information RetrievalHyperlinkLokales MinimumPen <Datentechnik>Programmierbare logische AnordnungWorld Wide WebHANS <Datenbanksystem>IMSHidden-Markov-ModellTheoremKrankenhausinformationssystemAbsoluter UmgebungsretraktDatenbusBenutzerfreundlichkeitRechnenIndexHypertextFormation <Mathematik>BrowserREST <Informatik>VerschlingungHypermediaComputeranimation
31:10
Manufacturing Execution SystemEinfügungsdämpfungWEBIndexTermPVMKorrelationskoeffizientComputermusikPoint of saleWorld Wide WebNeuronales NetzHidden-Markov-ModellMAPLAD <Programmiersprache>GroßrechnerZählenInternetSondierungBenutzerführungFamilie <Mathematik>BenutzeroberflächeALT <Programm>InternetLINUXBrowseriPadBenutzerfreundlichkeitInformationRechnenInhalt <Mathematik>NetzadresseWeb-SeiteRichtungService providerProviderp-BlockSystemplattformWEBIP 4SondierungComputeranimation
33:41
Absoluter UmgebungsretraktRSS <Informatik>Cross-site scriptingWEBSoziale SoftwareSocial TaggingMultiplikationSemantic WebContent <Internet>InternetWorld Wide WebWEBInformationWort <Informatik>BrowserGoogleComputeranimation
35:13
WEBWeb logGoogleIndexDeep WebMicrosoft NetworkZoomVimRechnenVerfügbarkeitZahlPhysikalische GrößeIndexZahlenbereichWEBWort <Informatik>Web-SeiteGrößenordnungSuchmaschineGoogleFuturERS
37:43
UploadingWEBApple <Marke>E-MailInternetInformationsüberlastungGoogleYouTubeFacebookApple <Marke>WEBTwitter <Softwareplattform>FlickrApp <Programm>
39:06
TED <Datenbank>Hidden-Markov-ModellGleitendes MittelInformationWorld Wide WebALI <Programm>HANS <Datenbanksystem>InformatikHTMLWEBInternetZahlDatenstrukturInformationMengeRechnenZeichenketteWEBNetzadresseWeb-SeiteSuchmaschineSystems <München>TermHTMLDiagrammComputeranimation
42:55
TICSWorld Wide WebLevel-Set-MethodeRegulärer Ausdruck <Textverarbeitung>Workstation <Musikinstrument>SenderMenütechnikGleitendes MittelSun <Marke>InformationWEBFormale SpracheSenderAusdruck <Logik>Zusammenhang <Mathematik>InformatikerCW-KomplexEbeneWort <Informatik>Noten <Programm>ProgrammierspracheAussage <Mathematik>LaufzeitsystemXMLComputeranimation
49:12
Hidden-Markov-ModellDOSInformation RetrievalAbsoluter UmgebungsretraktDistributionenraumSoftwareAgent <Informatik>InformationInformationKommunikationEinfügungsdämpfungRechnenBildschirmmaskeEbeneWort <Informatik>Web-SeiteSuchmaschineInformation ExtractionKontextbezogenes SystemRechenwerkXMLComputeranimation
53:06
InformationDOSInformationSuchmaschineWort <Informatik>QuanteninformatikAtom <Informatik>VerschlingungInkonsistenzSemantische KonsistenzWeb-SeiteHomepageHTTPWeb SitePatch <Software>Plug inComputeranimation
56:02
InformationRouterInformationMengeSuchmaschineDatensicherungComputeranimation
57:29
Semantic WebContent <Internet>WEBInternetWorld Wide WebSpieltheorieBerners-Lee, TimInformationKommunikationInhalt <Mathematik>WEBNormalvektorHighlight <Programm>Computeranimation
58:49
Information RetrievalContent <Internet>InterpretiererWEBWorld Wide WebSemantic WebHausinternes NetzInformationWeb-SeiteMetadatenSuchmaschineART-NetzSemantic WebInformation RetrievalComputeranimation
01:00:25
WEBContent <Internet>WhiteboardLisaSubclass <Programmierung>PACESemantic WebJames <Programm>Gleitendes MittelHidden-Markov-ModellInformationKeller <Informatik>EinfügungsdämpfungInformationDatenbankWissensrepräsentationZeichenketteErweiterungZusammenhang <Mathematik>Affine AbbildungAussage <Mathematik>GruppierungMomentenproblemObjektorientierte ProgrammierspracheVerschlingungKlasse <Mathematik>Web-SeiteWorld Wide WebMaschinelle LesbarkeitDateiformatURLWORKS SuiteOntologie <Wissensverarbeitung>WEBJames <Programm>Semantic WebComputeranimation
01:07:52
Message Transfer AgentSemantic WebRDF <Informatik>Subclass <Programmierung>X3DPACELandinformationssystemWEBHardware-in-the-loopMicrosoft NetworkGleitendes MittelLokales MinimumSummierbarkeitLARS <Programm>MOCCA <Programm>SuperLearnStatisches RAMRAMBenutzeroberflächeHidden-Markov-ModellContent <Internet>InternetWorld Wide WebURLDatensatzInformationBeschreibungsspracheAusdruck <Logik>AbfragespracheZusammenhang <Mathematik>Aussage <Mathematik>ZählenVersion <Informatik>AbfrageTerminologische LogikSchätzfunktionHTTPStrukturierte DatenInformationsqualitätTor <Netzwerk>DatenbankMengeEbeneTabelleConstraint <Künstliche Intelligenz>RDF <Informatik>Computeranimation
01:14:56
Programmierbare logische AnordnungWeb SiteInformationAPIHTTPDatensatzInformationSchnittstelleProgrammiergerätWeb-SeiteRahmenproblemInternetdienstAbfrageSuchmaschineLinked DataComputeranimation
01:16:12
Information RetrievalZeichenketteTyp <Informatik>ParametersystemPOWER <Computerarchitektur>BenutzerfreundlichkeitBenutzerfreundlichkeitBetriebssystemInformationRichtungSuchmaschineMonster-GruppeGoogleComputeranimation
01:17:53
Information RetrievalZeichenketteVererbungshierarchieTyp <Informatik>Information RetrievalSuchmaschineRouterCodeInformationPhysikalische GrößeARCHIVE <Programm>GoogleComputeranimation
01:20:28
World Wide WebAgent <Informatik>Semantic WebWEBInformation RetrievalACCESS <Programm>XMLSoftware EngineeringTICSContent <Internet>InternetInformationKünstliche IntelligenzReiheRoboterSystemtheorieRechnernetzInformation RetrievalDatenbanksystemAnwendungssoftwareDarstellung <Mathematik>UngleichungEbene KurveRechnerorganisationTheoretische InformatikWEBTemplatePresentations <Programm>Web-SeiteHTMLJavaScriptBrowserAppletSemantic WebWeb ServicesKryptologieComputerlinguistikInformatikerAssistent <Programm>Content ManagementInternetdienstGoogleFlussdiagramm
01:23:28
Gewicht <Ausgleichsrechnung>Computeranimation
Transkript: Deutsch(automatisch erzeugt)
00:01
Ja, recht herzlich willkommen zu Semantic Web Technologies, Vorlesung Wintersemester 2012-2013. Wir werden heute zwei verschiedene Sachen machen. Das eine ist, wir werden das Administrative klären, das wir schon angefangen haben. Ein paar Sachen gibt es noch dazu zu sagen. Und wir werden heute natürlich eine Einführungsveranstaltung in dem Sinne machen.
00:22
Ich werde Ihnen kurz vorstellen, worum es in der Vorlesung generell allgemein geht. Und wir schauen uns mal so motivierenderweise an. Warum sind denn solche semantischen Technologien im Web, wie das Ganze ja auch heißt, überhaupt notwendig? Und was bringt uns das Ganze, damit wir mal sehen, wozu das Ganze gut ist, was wir das Semester über machen werden.
00:41
Die Veranstaltung selbst mache ich eigentlich in ähnlicher Art und Weise schon seit geraumer Zeit. Das heißt, das erste Mal kam ich mit dem Semantic Web Thema in der Lehre 2005-2006, damals noch an der Friedrich-Schiller-Universität Jena in Berührung, habe dort ein Seminar gehalten. Die Inhalte waren natürlich noch wesentlich geringer, weil das Semantic Web wächst ja auch erst seit einiger Zeit.
01:02
Also es ist noch gar nicht so alt, werden Sie sehen. Und das eine, das Schöne ist an der Vorlesung, sie ändert sich immer von Jahr zu Jahr. Deutlich, weil immer neue Sachen dazukommen, ist natürlich auch ein Nachteil. Weil für mich, ich muss natürlich mehr vorbereiten, ich muss Ihnen dann von Jahr zu Jahr mehr erzählen. Aber es ist natürlich auch vielleicht ein bisschen interessanter als so eine total eingestaubte,
01:22
25 Jahre alte Mathematik-Vorlesung, an der sich irgendwie gar nichts ändert. Man ist nämlich irgendwo vorne mit dabei. Manche Sachen sind dann vielleicht im nächsten Jahr überhaupt nicht mehr wichtig, weil man sich irgendwie anders entschieden hat oder gesehen hat, das ist jetzt doch nicht der richtige Weg gewesen. Aber man hat zumindest das Gefühl, irgendwie mit dabei zu sein. Die erste Veranstaltung hier am Hasso-Platten-Institut hatte ich 2008-2009 da noch als Gastdozent gehalten.
01:45
Dann die erste richtige als Senior Researcher 2009-2010 und dann hier im vergangenen Jahr 2010-2011. Sie sehen immer irgendwie mit einem anderen Logo, damit man die Vorlesungslides auch irgendwie auseinanderhalten kann. Also es gibt dazu auch Blogs und zahlreiche Sachen irgendwie im Web,
02:01
damit Sie irgendwie so das Gefühl haben, zu welchem Jahrgang gehört denn jetzt das, was ich gerade im Web gesehen habe, das war die vom letzten Jahr. Und dieses Jahr haben wir uns eben auch wieder für einen Comic entschieden, in dem tatsächlich das Wort Data Space vorkam, fanden wir toll. Und deshalb hier jetzt eben unser diesjähriges Logo für die Vorlesung.
02:21
Diejenigen, die mich schon mal gesehen haben, da muss ich mich ja nicht nochmal vorstellen. Mein Name ist Harald Sack. Ich bin hier Senior Researcher mit einer mittlerweile relativ großen Forschungsgruppe am HPI. Wir machen alles, was irgendwie mit Semantik zu tun hat, also Semantik Web Technologies, alles, was mit Wissensrepräsentation zu tun hat, also Ontological Engineering nennt man das oder Ontologien.
02:43
Ursprünglich komme ich ein bisschen eher aus dem Suchmaschinenbereich. Also Information Retrieval machen wir auch noch. Das Ganze dann im Bereich Multimedia. Vielleicht haben Sie uns schon mal in einer der Multimedia-Analyse-Seminare gesehen. Social Networking, Web 2.0, dieser ganze Kram gehört natürlich auch noch mit dazu. Und man muss das Ganze irgendwie zu Papier bringen bzw. eine Oberfläche dazu gestalten.
03:02
Das heißt, Data und Information Visualization sind ebenfalls noch Schwerpunkte, die in unserer Forschungsgruppe hier anbieten. Ja, ich habe ein paar Bücher geschrieben, die Ihnen vielleicht schon über den Weg gelaufen sind. Wir sind in einigen Forschungsprojekten drin. Ein Interessantes, das wir schon seit Jahren mitführen, das ist das Jovisto-Projekt.
03:22
Da geht es um, kennen Sie vielleicht, um Vorlesungsaufzeichnungen, ähnlich wie bei TeleTask, nur dass die eben aus der ganzen Welt stammen und hier durchsuchbar sind, jetzt mittlerweile dann auch semantisch durchsuchbar. Und wir sind im gleichen Umfeld. Es geht da immer um semantische Medienanalyse, semantisches Suchen in Multimedia-Daten. Da geht es auch in Mediaglob, diesen Theseus-Projekten, Contentus
03:41
oder jetzt auch mit der Technischen Informationsbibliothek Hannover. Da basteln wir denen auch ein Portal für ihre Videoinhalte, die man dann semantisch durchsuchen kann. Wir selbst, die Gruppe, wir sitzen im Hauptgebäude. Erste Etage, so in dieser Runde drin, H137 bis H140. Ich habe es noch nie geschafft, alle irgendwie zusammen auf ein Bild zu bekommen.
04:03
Das ist das Bild mit den meisten Mitarbeitern, von denen einer auch schon wieder nicht mehr da ist. Und wir suchen natürlich ständig irgendwelche studentischen Hilfskräfte. Das heißt, falls Sie im Zuge der Vorlesung feststellen, semantische Technologien, das ist irgendwas für mich, da möchte ich mal ein bisschen weitermachen. Können Sie natürlich gerne mal bei uns vorbeikommen und fragen. Wir suchen ständig Hilfskräfte in dem Bereich und bieten dazu natürlich auch gerne Masterarbeitsthemen an.
04:26
Da können wir uns also auf jeden Fall gerne mal unterhalten. Gut, wer ist noch mit von der Partie?
05:00
Alin.
05:01
Gut. Und Magnus.
05:27
Okay, also mehr denke ich zu euch, wird man noch erfahren, wenn man dann in die Übung kommt. Hier nochmal kurz die Daten zusammengestellt. Also Vorlesung immer. Dienstag, Herr Herzer, von 13.30 bis 15 Uhr. Und die Übung dann morgen Mittwoch 13.30 bis 15 Uhr,
05:42
aber nicht hier im Hörsaal, sondern in HI 52. Gut, da sind nochmal unsere E-Mail-Adressen. Wenn Sie mit uns in Kontakt kommen wollen oder kommen Sie einfach vorbei. Öfters ist ja auch mal jemand von uns im Büro. Wie kann man sich noch irgendwie informieren? Es gibt wie immer eine Webseite mit einer unsäglich langen URI oder URL, wie Sie hier sehen.
06:01
Da findet man Informationen. Deshalb haben wir uns gedacht, das ist auch immer kompliziert mit diesem Typo 3-System, bis wir dann alles drin haben und dann sieht es nicht so aus, wie wir wollen. Legen wir einfach einen Blog an, das geht viel schneller. Das heißt, das Blog mit einer etwas kürzeren URL sehen Sie drunter. Und da schreiben wir eigentlich immer alles Relevante und Kurzfristige auch, was irgendwelche Bedeutung für die Vorlesung hat oder für die Übung hat mit rein.
06:22
Das heißt, da könnten Sie oder da sollten Sie drin folgen. Da sind dann auch immer Links zu den jeweiligen Handouts. Heute hat es auch geklappt. Fünf Minuten vor der Vorlesung bin ich dazu gekommen, quasi das aktuelle Handout, nicht nur das, sondern das, was wir dann auch zu dem zweiten Teil hier heute noch sehen werden, hochzuladen. Das heißt, das ist immer ganz kurz vor der Vorlesung aktuell.
06:41
Dazu noch weitere Sachen. Wenn Sie Fehler finden hier in diesen Handouts, würden wir uns natürlich sehr freuen. Wenn wir davon auch erfahren würden, dann haben wir die Chance, sie zu korrigieren. Und spätere Generationen werden es Ihnen danken, wie ich immer sage. Das heißt, sagen Sie uns ruhig Bescheid, schicken Sie eine Mail. Dann können wir das irgendwie dann korrigieren. Wenn es Rechtschreibfehler sind, dann ganz schnell. Wenn es inhaltliche Fehler sind, können wir es ausdiskutieren.
07:02
Auf jeden Fall kann es eben dann auch passieren, dass die Handouts, muss ich auch an dieser Stelle sagen, die wir hochladen, wenn ein Fehler gefunden worden ist, dann quasi nochmal neu hochladen, ohne Fehler. Das heißt, bleiben Sie irgendwie dran und verlassen Sie sich nicht auf das älteste Handout, das Sie runtergeladen haben. Wir sagen das aber normalerweise immer. Dafür gibt es auch das Blog, wenn wir einen Fehler gefunden haben, irgendwas ersetzen, schreiben was da auch.
07:21
Dann können Sie dann die richtige Version runterladen. Gut, was machen wir als nächstes miteinander? Nach einer kurzen Einführung, die wir heute zusammengestalten werden, wenn wir uns die Semantic Web Basisarchitektur mal anschauen, also das heißt, sämtliche Technologien, auf denen dieses ominöse Semantic Web, was das sein wird, wenn wir heute ja noch kennenlernen, dann am Ende aufbaut.
07:42
Und da ist ein ganz wichtiger Bestandteil, wenn wir diese Basissprachen, die man hier brauchen, kennengelernt haben, ist, dass wir uns generell mal Gedanken darüber machen, wie kann ich denn eigentlich Wissen und die Bedeutung von Wissen in irgendeiner Art und Weise formal ausdrücken. Das heißt, wir werden uns um Wissensrepräsentationen kümmern. Das ist so was Ähnliches, wie Sie schon kennen, wie Datenstrukturen,
08:01
nur dass man noch mehr reinpacken kann, nämlich man kann tatsächlich auch noch Logik mit reinpacken und Wissen und kann dann damit arbeiten, neues Wissen draus generieren, neues Wissen erschließen, das kann man mit normalen Datenstrukturen nicht. Deshalb kommt hier nämlich auch die Logik mit hinein. Und am Ende, ja nicht ganz am Ende, das werden zwei bis drei Vorlesungen sein, werden wir uns dann noch mal anschauen, was kann ich denn alles mit den Sachen,
08:22
die wir jetzt kennengelernt haben, machen. Das heißt, wie sehen die eigentlichen Anwendungen aus, die man hier im Web of Data, im Symantikweb tatsächlich basteln kann. Das Ganze geht dann heute los. Wir werden so historisch mal reingucken, wie hat sich das Web entwickelt, wo sind jetzt genau die Knackpunkte, das heißt, wo fängt es an zu knirschen aufgrund der immensen Größe,
08:42
die wir erreicht haben und wie kompliziert ist das mit der Information, die da drin ist, zurechtzukommen. Wo stößt Google denn tatsächlich auch an seine Grenzen und wo könnte es jetzt hingehen, wenn wir eben in Richtung Symantik gehen, das heißt, wenn die Bedeutung der Information tatsächlich auch noch explizit gemacht wird oder erschlossen werden kann. Das werden wir uns als erstes anschauen.
09:01
Dann kommen später die ganzen Basistechnologien, also ab nächster Woche dann. Da ist natürlich dabei eine kurze Wiederholung von XML und XML Schema, hatte ich schon gesagt, wird morgen eben dann anstelle der Übung stattfinden, wird auch von Nadine und Magnus dann durchgeführt. Wir werden dann nächste Woche weitermachen mit der ersten Form
09:20
der Wissensrepräsentation, das sogenannte Resource Description Framework werden wir kennenlernen. Damit kann man einfache Aussagen zusammen basteln und dazu gehört auch eine Schema-Language, also eine Beschreibungssprache, mit denen ich dann Ontologien aufbauen kann, die ja noch nicht viel Wissen tragen, in dem Fall aber ganz unten, also quasi mit flacher Symantik angesiedelt sind, mit ADF Schema.
09:40
Dann werden wir uns anschauen, wie kriege ich diese ganzen Sachen denn jetzt tatsächlich mit in das World Wide Web hinein, denn ADF ist natürlich nicht Teil dessen, was wir normalerweise gewohnt sind in HTML beispielsweise zu finden. Mikroformate, davon haben Sie vielleicht schon mal was gehört von Microformats, vielleicht haben Sie auch schon mal was von Schema.org gehört, aber es gibt auch Dinge, die nennen sich dann RDF, das ist dann RDF in HTML Attributen drin
10:04
und Griddle, mit dem man das Ganze dann aus HTML sehr leicht wieder herausholen kann, das werden wir uns anschauen, also wie bekomme ich diese kleine Symantik oder RDF Daten in das Web hinein und hole das dann auch wieder hinaus. Und Sparkle, das ist eine Abfragesprache, die wir uns dazu noch anschauen, die sehr nah an SQL angelehnt ist.
10:21
Aber das Ganze reicht noch nicht aus, wir werden auch herausfinden, warum das Ganze nicht ausreicht und dann werden wir eben in die Logik reingehen, das heißt wir müssen uns etwas ausdrucksstärkere, komplexere Wissensrepräsentationen anschauen. Da werden wir als allererstes einen kleinen Exkurs machen, denn der Begriff der Ontologie, also in unserem Sinne der Wissensrepräsentation, ist relativ alt, stammt aus der Philosophie,
10:42
das betreibt man schon dort diese Disziplin seit über 2000 Jahren, deshalb sollte man natürlich wissen, wo das Ganze geschichtlich herkommt, was die Philosophen damit machen und was sich die Informatiker quasi davon geklaut haben oder annektiert haben und jetzt im Bereich der semantischen Technologien damit veranstalten. Das Ganze basiert ursprünglich natürlich auf der Aussagenlogik und der Prädikatenlogik,
11:04
also propositional logic und first order logic, deshalb werden wir das hier an dieser Stelle auch nochmal wiederholen, nämlich genau die Bereiche, die wir eigentlich später dann auch brauchen. Ich gehe davon aus, dass Sie alle im Rahmen Ihres Grundstudiums mal eine Logikvorlesung hatten oder Logik zumindest im Rahmen der Informatik-Grundausbildung genossen haben.
11:22
Wir werden da auf spezielle Techniken, nämlich auf das automatische Schließen, so Resolutionstechniken und Tableauverfahren abzielen, damit wir das alles nochmal wiederholen und Sie das dann parat haben für eine neue Form der Logik, die Sie noch nicht können, nämlich für die sogenannte Beschreibungslogik oder im Englischen Description Logics. Das ist jetzt nicht nur eine Logik, das sind viele verschiedene, deshalb Mehrzahl, Logics
11:43
und die dient normalerweise dazu, eben die Dinge, Wissensrepräsentationen zu beschreiben im Semantikweb und die sind so ein bisschen von der Ausdrucksstärke angelegt zwischen der Prädikatenlogik und der Aussagenlogik und vereinen irgendwie das Beste aus beiden Welten. Das heißt, sie sind gerade noch berechenbar, aber trotzdem ausdrucksstark genug.
12:03
Gut, und wenn wir dann quasi dafür die theoretischen Grundlagen gelegt haben, gehen wir ein Stückchen weiter in unseren Wissensrepräsentationen, gehen zu den komplexeren Sprachen, nämlich wir schauen uns mal an, was für eine Semantik steckt denn in diesem RDFS, was wir quasi noch im letzten Kapitel kennengelernt hatten, und machen dann weiter mit AOL, OWL, das ist quasi die Semantikwebsprache, die Beschreibungslogik oder eine ganz bestimmte Beschreibungslogik hier abbildet.
12:26
Und wir werden uns dann noch anschauen, wie sieht das denn aus, wenn das noch komplexer wird, wenn ich dann Regeln mit dazu nehme, wie wird denn hier mit Regeln auch jetzt im Bereich der Logik und der künstlichen Intelligenz gearbeitet, nämlich das ist genau das, wo wir hier dann quasi enden oder hinwollen.
12:41
Das soll es dann auch gewesen sein mit den theoretischen Gerüst, dann gehen wir in die Anwendungen rein und schauen uns mal an, ok, wie kann ich Wissensrepräsentationen denn tatsächlich jetzt aufbauen. Ähnlich wie man Software nicht einfach nur so Pi mal Daumen oder quasi allein am Schreibtisch und ohne jegliches Verfahren oder Grundlage entwickelt, gibt es natürlich auch hier Methodologien
13:01
im Bereich des Ontology Engineering, wie ich eben jetzt hergehen kann und großmaßstäblich im industriellen Bereich Wissensrepräsentationen im Team mit vielen zusammen dann eben auch sehr komplex aufbauen kann. Das ist ein Bereich, den wir uns anschauen, hier bei den Applikationen. Zweiter Bereich wird sein, wir müssen ja irgendwie vom Text, kennen wir alle, zu einer Wissensrepräsentation kommen.
13:23
Und da ist ein ganz wichtiger Schritt, dass ich im Text quasi herausfinde, was bedeuten denn die einzelnen Terme, die ich hier habe, was steckt da für eine semantische Entität, nennt man das dahinter. Und dass dieses quasi Erkennen von semantischen Entitäten, dieser Prozess wird Named Entity Recognition genannt. Das schauen wir uns in dem Bereich an.
13:41
Und ein ganz wichtiger Bereich, werden wir heute auch schon mal mit anfangen, ist der Bereich, das linked data. Das ist quasi so das oder der Vertreter des Semantikweb, der jetzt aktuell irgendwie im Web zu finden ist. Das sind also quasi eigentlich vormals strukturierte öffentlich verfügbare Daten, die jetzt über RDF, also einfache semantische Beschreibungssprache, kodiert sind und über sehr einfache Mechanismen zugreifbar sind und untereinander auch verlinkt sind.
14:05
Und mit denen kann man wunderbar arbeiten. Dazu gibt es spezielle APIs, das werden wir uns mal angucken, wie man quasi diese Daten miteinander kombiniert und da sehr sehr schnell und auf einfache Art und Weise so Mashups draus bauen kann. Wissensrepräsentationen, RDF-Daten müssen natürlich in irgendeiner Art und Weise auch persistiert werden.
14:22
Das heißt, die müssen in eine Datenbank geschrieben werden. Wir werden lernen, dass normale, sag ich mal, relationale Datenbanken, objektrelationale Datenbanken für diesen Zweck nur bedingt geeignet sind. Es gibt da spezielle RDF-Databases, sogenannte Triple Stores. Das werden wir uns anschauen und uns überlegen, warum sind die besonders gut geeignet, was ist jetzt gut dran, was ist schlecht dran, wie funktioniert das Ganze.
14:42
Und dann gehen wir noch in zwei weitere Anwendungen rein. Einmal in die semantische Suche, was bedeutet das für das Information Retrieval, wenn ich jetzt nicht nur nach dem Text irgendwie suchen kann, sondern nach der Bedeutung des Textes und was kann ich damit alles machen. Und dann gehen wir auch noch rein, wie kann ich denn auch Semantik im Multimedia-Bereich, also wenn ich keine Texte habe,
15:02
wie kriege ich denn da irgendwie Semantik quasi aus den Bildern, aus den Tönen, aus den Videos heraus. Das ist dann der letzte Teil der Vorlesung, wie wir uns das nochmal anschauen. Also das quasi sind so die einzelnen Teilgebiete und Themen, denen wir uns in den nächsten 14 Wochen dann unterhalten werden. Dieses Bildchen werden Sie eigentlich ständig wieder sehen.
15:22
Das ist der Semantik-Web-Architektur-Stapel, in dem quasi aufeinander aufbauend unterschiedlichste Technologien, die eben jetzt zur Wissensrepräsentation im Semantik-Web-Dien aufgelistet sind, brauchen Sie jetzt noch nicht zu verstehen. Wir werden das dann Stück für Stück jedes Mal durchgehen, von unten nach oben, quasi jeweils in dem Bereich, wo wir es gerade brauchen.
15:46
Es gibt natürlich auch Literatur, das heißt Bücher, die man sich dazu angucken kann. Teile der Vorlesung folgen eng dem Semantik-Web-Grundlagenbuch hier von Pascal Hitzler. Allerdings sind einige Dinge, die wir machen, jetzt gehen schon darüber hinaus und sind erweitert.
16:01
Und der zweite Teil der Vorlesung, dazu gibt es dann eigentlich noch kein richtiges Buch, beziehungsweise sind immer nur Einzelteile, zu denen ich Ihnen dann Hinweise gebe, wo Sie es nachlesen können. Das Buch drunter, Foundations of Semantik-Web-Technologies, ist eigentlich genau dasselbe Buch, nur dass es eben in Englisch ist und zwei Jahre neuer. Das heißt, dort geht das Ganze schon ein bisschen weiter. Es ist etwas ausführlicher als das obere Semantik-Web-Buch.
16:23
Beide sind eigentlich auch in ausreichender Zahl in der Bibliothek vorhanden. Beziehungsweise das deutschsprachige Semantik-Web-Buch, das finden Sie auch komplett als Volltext im Web. Das haben wir unter den Materialien auch verlinkt, dass Sie sich das anschauen können.
16:41
Zum Ontology Engineering. Da haben wir auch zwei Bücher rausgesucht, eins schon ein bisschen älter. Das untere Ontological Engineering und das obere Ontology Matching. Da geht es eben darum, wie kann ich mit Ontologienwissensrepräsentationen arbeiten. Und dann gibt es noch ein Buch im Bereich Linked Data. Das ist relativ neu von 2011. Das ist auch als Volltext im Web verfügbar.
17:00
Das heißt, das müssen Sie sich auch nicht kaufen. Da sind dann noch einmal auf der letzten Seite unsere zwei, drei Materialienquellen, bei denen Sie letztendlich alles erfahren können. Das Blog, die Webseite. Und ganz unten, wenn wir Materialien noch einmal für Sie extra und für die Vorlesung zusammenstellen, haben wir immer so einen Link in Bibsonomy. Das ist so ein Social Link oder Social Bookmarking Tool,
17:23
in dem wir gerne Webseiten, Bibliografien und andere Sachen verwalten. Und da gibt es dann immer ein spezielles Tag, in dem dann quasi sämtliche Materialien zu einer jeweiligen Vorlesung zusammengefasst werden. Also klicken Sie es am Ende der Handouts, sind dann immer die entsprechenden Texte oder verlinkt, klicken Sie das an, dann kommen Sie auf die Materialien zur Vorlesung.
17:42
Des Weiteren sind in den Handouts selber natürlich auch immer wieder Links drin, die Sie, wenn Sie das Ganze am Rechner angucken, anklicken können. Und dann kommen Sie zu den entsprechenden Materialien, die dann noch irgendwie interessant sind. Gut, das ist quasi das Administrative rund um die Vorlesung. Gibt es von Ihrer Seite zum administrativen Teil schon mal Fragen?
18:08
Wenn nicht, oder falls noch welche entstehen, heben wir uns das ganz fürs Ende noch auf. Dann machen wir weiter direkt mit dem ersten inhaltlichen Teil. Ich hoffe, das ist jetzt die richtige. Ja, nämlich mit der Einführung in das Semantic Web erste Vorlesung.
18:24
Und zwar hatten wir gesagt, wir wollen uns dem Semantic Web nähern aus einer historischen Perspektive. Das heißt, wir fangen irgendwo ganz am Anfang mal an und überlegen uns, ja, wie fing das mit dem Internet eigentlich an, wie hat sich das Ganze entwickelt hin zum Web, dann weiter zum Web 2.0 und wo quasi sind die Grenzen im Web denn eigentlich zu sehen
18:42
und wie kann man über diese Grenzen irgendwo hinwebkommen? Gut, also ganz am Anfang steht das Internet. Ein bisschen dunkel, man sieht es nicht genau. Einige von Ihnen kennen vielleicht die Fernsehserie, aus der genau dieses Ding hier das Internet quasi herausgenommen ist. Wenn nicht, fragen Sie Ihre Kommilitonen.
19:00
Das Internet ist schon relativ alt. Das wissen Sie alle vielleicht. Aus welchem Jahr stammt das Internet? Weiß es jemand? Na gut, sagen wir es mal umgekehrt. Wann wurden die ersten Rechner im Internet zusammengeschaltet?
19:22
Da gibt es ein exaktes Datum. 1969, also nah dran. Am 29. Oktober 1969, da hieß es auch noch nicht Internet, da hieß es Arpanet. Und diese drei Herren hatte ich Ihnen mal rausgeholt, die sollten wir sich mal angucken.
19:44
Der Herr Licklider, der Herr Taylor und der Herr Roberts. Sie haben natürlich recht, das ist ungenau formuliert. Die Ursprünge des Internets gehen sogar noch ein Stückchen weiter zurück. Manche sagen, es fängt irgendwann an, so zur Zeit des Sputnikshocks 1957. Sputnik 1, der erste Satellit der Sowjetunion.
20:01
Damit, dass die Sowjetunion dann irgendwas in den Weltraum geschossen hat, sind sie natürlich wiederum, möchte sich wehren. Sie sieht, dass sie irgendwie Forschungstechnischen ins Hintertreffen geraten ist und gründet daraufhin die sogenannte ARPA, die Advanced Research Project Agency. Das ist eine Forschungsförderungsagentur, die Forschungsgelder verteilt in die Wirtschaft an die Universitäten, um die zu fördern. Und im Zuge dieser Forschungsförderung, ausgelöst durch den Sputnik,
20:24
quasi kam man auch auf die Idee, es wäre vielleicht ganz interessant, jetzt Computer gab es ja schon Ende der 50er, Anfang der 60er Jahre, wenn die Daten miteinander austauschen. War eigentlich eine ziemlich unerhörte Idee. Aber wenn man das macht, sollte das auch natürlich in irgendeiner Art und Weise
20:42
möglichst störungssicher, ausfallsicher sein. Und man hatte damals in den 60er Jahren ein sehr, sehr großes Problem. Da gab es jetzt nicht nur PCs oder nicht nur Macs, sondern quasi jeder eingesetzte Rechner war an sich fast eine Spezialanfertigung, hatte irgendwie sein eigenes Betriebssystem, hatte seine eigene Binärdarstellung von irgendwelchen großen Zahlen
21:01
und man musste alles Mögliche hin und her übersetzen und zwischen allen dann separate Interfaces schaffen. Und deshalb hat man sich Gedanken gemacht, wie könnte man da ein vereinheitliches Netzwerk schaffen, mit vereinheitlichen Schnittstellen. Und das haben eben hier diese drei Herren allen voran. Der Herr Licklider, der war der erste Direktor des sogenannten Information Processing Technologies Office, der ARPA,
21:21
ins Leben gerufen. Und der hat zusammen mit dem Robert Taylor, der ihm quasi nachgefolgt ist, 1966, eine Arbeit geschrieben. The computer is a communication device, also der Computer als Kommunikationsmittel. Und hat darin schon sehr, sehr viel, also das sieht man an dem kleinen Text hier vorweg genommen, quasi was das Web oder das Netz uns heute ermöglicht,
21:42
dass das eben nicht nur sowas ist wie die bisherigen Massenmedien, bei denen man Informationen vorgesetzt bekommt, die man dann konsumiert, sondern dass man eben interaktiv die Möglichkeit hat, Informationen dort tatsächlich auch einzustellen, darauf zu reagieren und dann tatsächlich in eine Interaktion, eine Partizipation entstehen kann.
22:01
Also das ist schon Ende der 60er Jahre. Gut, das Netz hat sich seither relativ etwas zögernd und dann sehr schnell ausgebreitet. Also Sie sehen hier, es hat gut zehn Jahre gedauert, bis in den USA mal mehr als eine Handvoll Rechner tatsächlich drin stand. Das Problem, warum das am Anfang relativ langsam ging,
22:21
war zum einen natürlich, Rechner sind teuer, Kommunikationsverbindungen für Rechner sind ebenfalls sehr, sehr teuer, aber es hat natürlich noch einen anderen Grund, warum das damals noch keine Popularität gewinnen konnte. Vielleicht erinnern sich noch einige von Ihnen, es gab mal solche Dinge, das nannte man Terminal. In einem solchen Terminal hat man die Möglichkeit, wenn man quasi nichts anderes hat, kein Browser, keine grafische Benutzeroberfläche,
22:41
nur ein Terminal, kann man natürlich trotzdem auch das Netzwerk nutzen und kann Informationen auf anderen Rechner zugreifen, kein Problem. Aber, okay, wie funktioniert es? Wir machen das Terminal auf, wir müssen erst mal einen fremden Rechner finden, zu dem wir uns, wie man so schön sagt, connectieren, also connect to a remote computer. Dort, wenn wir Glück haben, können wir ein Filesystem scannen,
23:01
das heißt, wir können mal schauen, was ist denn dort tatsächlich an Informationen vorhanden. Und wenn ich dann, dem Namen nach hoffe ich mal, irgendeine Datei gefunden habe, die mich interessiert, dann kann ich die über das Netz zu mir herunterladen und wenn die dann bei mir dann tatsächlich angekommen ist, dann kann ich die auch anschauen. Aber Sie können sich vorstellen, dass natürlich diese Art des Informationszugriffs
23:20
alles andere ist als nutzerfreundlich. Das heißt, auch wenn das Ganze schon so Ende der 60er, Anfang der 70er Jahre möglich war, also meine Mutter wäre nie auf die Idee gekommen, in irgendeiner Art und Weise so im Netz zu surfen. Das heißt, das ist weder benutzerfreundlich, man braucht natürlich dafür Expertenwissen, weil man die ganzen Programme kennen muss, die man hier bedienen muss, man muss das Protokoll kennen,
23:41
man muss wissen, was ein Filesystem ist. Und wenn man tatsächlich dann mal nach Informationen sucht, das heißt nach Inhalten, wird es hier natürlich sehr, sehr kompliziert, weil man muss, um irgendwo reinschauen zu können, die Sachen tatsächlich erst mal herunterladen. Und das macht es dann natürlich sehr kompliziert. Die erste Erleichterung kam dann 1990,
24:01
also Ende der 80er, Anfang der 90er Jahre, mit dem World Wide Web, quasi wie Sie es heute schon kennen. Den oberen Herren haben Sie sicherlich schon gesehen, Tim Berners-Lee, den unteren, der ihm geholfen hat. Den sieht man nicht so oft, den Robert Caillaux, der ist mittlerweile auch schon pensioniert, also ist Rentner und hält sich immer ein bisschen so im Hintergrund. Und das ganze ist entstanden, das Web, das kennen Sie ja auch,
24:21
als die Geschichte, als quasi Dokumentenverwaltungssystem im größten europäischen Kernforschungszentrum, dem CERN, in Genf. Also erst mal intern. Und dann hat man irgendwie erst mal auf die Idee gekommen, hey, das kann man ja nicht nur intern, also im Intranet nutzen, sondern natürlich auch über das Internet, irgendwie weltweit. Und dann Anfang der 90er Jahre
24:41
hat sich das dann sehr schnell verbreitet. Eine interessante Geschichte, die auch von Tim Berners-Lee immer wieder gerne erzählt wird, wenn man gefragt wird, was war denn jetzt eigentlich der Grund, warum man dann im CERN tatsächlich dieses World Wide Web genutzt hat oder was war die Killer-Applikation? Weiß es jemand von Ihnen, was die Killer-Applikation war, die erste?
25:03
Nee, das war das CERN-Telefonbuch. Also eigentlich war es dafür gedacht, Dokumente zu verwalten, weil man hatte ja quasi, Sie kennen diese riesengroßen Teilchen, Physikexperimente, die dort durchgeführt werden. Und da sind normalerweise Hunderte von Forschern mit beteiligt. Und wenn die zusammen mal ein Dokument schreiben
25:22
oder man quasi diese Experimente verwalten will, braucht man schon ein gutes System, das dann in der Lage ist, diese Dokumente, die dazu gehören, irgendwie zusammenzuführen, zu ordnen, zu strukturieren, zu organisieren. Und das hat man eben hier mit Hilfe eines Hypertextsystems versucht und wurde aber nur zögerlich angenommen von den Wissenschaftlern. Aber was die toll fanden, war, dass man damit sehr, sehr schnell
25:42
die Telefonnummer von irgendeinem Kollegen herausfinden konnte. Und damit hat sich dann das Web tatsächlich auch durchgesetzt. Gut, was war das Besondere? Kennen Sie auch, das Besondere sieht man jeden Tag. Das sind die Links in diesem Netzwerk. Das Netzwerk ist jetzt nicht mehr quasi rechnerzentriert, wie vormals, über das Terminal, sondern eben dokumentenzentriert.
26:00
Das heißt, Grundparadigma alles hängt sich auf an einem Dokument. Ich kann das Dokument im Browser angucken, wenn ich zu einem neuen Dokument gehen möchte. Dann klicke ich einfach einen Link an zu einem Dokument, das mit dem vorliegenden Dokument im Browser verbunden ist. Also es ist ganz einfach jetzt. Das versteht auch oder hat auch schon sehr schnell meine Mutter verstanden. Und auch sie ist in der Lage, quasi hier jetzt im Netz zu surfen, weil man eben nur noch von einem Link zum nächsten sich entlanghangend.
26:24
Die grundlegende Idee, die da dahinter steckt, dieses Hypertext- oder Hypermedia-System, ist eigentlich auch schon viel, viel älter, als man eigentlich meinen sollte. Also das Prinzip letztendlich, dass ich Dokumente untereinander verlinke, das haben schon die ersten sogenannten Enzyklopidisten
26:40
zu Zeiten der Aufklärung. Jemand von Ihnen weiß, wann die Aufklärung ungefähr stattgefunden hat? 18. Jahrhundert. Immer 18. Jahrhundert sagen, ist für die Aufklärung genau richtig. Da ging es eigentlich darum, dass ich philosophisch und weltanschaulich, wenn man sich das merken möchte, da haben die Leute angefangen,
27:02
also sie haben natürlich immer recht, sagen wir mal, drastisches Vokabular verwendet, nämlich sie wollten sich aus der Knechtschaft der althergebrachten Tradition und der Kirche lösen, sondern nur noch sich dem Verstand und den Regeln des Verstandes unterwerfen und quasi die Wissenschaft im Vordergrund stellen. Also das war so quasi diese Emanzipation der Wissenschaft von der Kirche
27:21
fand so zur Zeit der Aufklärung statt. Und zwei der führenden Aufklärer sind diese zwei Herren hier, im französischen Denis Diderot und Jean-Baptiste Laurent d'Alembert. Die beiden haben sich nämlich zur Aufgabe gesetzt, sie wollten das gesamte Wissen der Welt zusammentragen in einer Enzyklopädie. Natürlich nicht nur die zwei zusammen, insgesamt hatten die einen Mitarbeiterstab von über 140 Leuten,
27:43
die an dieser Enzyklopädie gearbeitet haben. Und letztendlich haben sie dann zwischen den Jahren 1750 und 1780, also in 30-jähriger Arbeit, hier ein 35-bändiges Werk, jedes Werk knapp 1000 Seiten, insgesamt 70.000 Artikel haben sie da zusammengetragen, wie in der Wikipedia, müssen Sie sich vorstellen,
28:00
nur halt eben in Buchform. 17 Bände allein nur Text, der Rest alles nur Abbildungswerke mit tausenden von Kupferstichen, irrsinnig aufwendig. Und wenn man so eine Enzyklopädie anfängt, kommt man natürlich auf das Problem, man möchte das ganze Wissen der Welt beschreiben, möchte sich aber eigentlich nicht wiederholen, weil das soll ja nicht 10-mal überall verteilt in den Büchern stehen,
28:21
was jetzt beispielsweise ein Rat ist oder was auch immer. Also das heißt, da benutzt man einfach Querverweise, um zu sagen, und wenn man wissen möchte, was jetzt das bedeutet, was ich hier geschrieben habe, dann guck im Wand 2 auf Seite 234 bei dem und dem Artikel nach, da habe ich das beschrieben. Also diese Querverweise, wie wir das aus dem Hypertext kennen,
28:41
die stammen eigentlich aus diesem Enzyklopädie-Bereich und wurden da damals entsprechend schon verwendet. Problem nur bei der ganzen Sache, 35 Foliobände, also so groß, ungefähr 10 Kilo wiegt einer in der großen Ausgabe, ist ein bisschen unhandlich, heutzutage Hypertext oder Hypermedia ist einfacher zu bedienen. Man hat sich natürlich auch schon in der Zeit Gedanken gemacht um Benutzerinterfaces,
29:01
also da wurde beispielsweise hier schon 100 Jahre zuvor das sogenannte Leserat erfunden, das war jetzt nicht nur ein Hirngespinz, es gibt sowas. Tatsächlich sollte sie mal nach Hannover verschlagen, insbesondere in die herzügliche Bibliothek von Wolfenbüttel, einer der bekanntesten Bibliotheken in Deutschland überhaupt. Da können Sie ein solches Leserat bewundern, da hatte man so die Möglichkeit eben aufgeschlagen,
29:21
größere Bücher hier abzulegen und dann auch so liegen zu lassen und dann quasi von Buch zu Buch zu springen, ähnlich wie das eben im Hypertext möglich war. Allerdings in Sachen Usability war das natürlich auch noch nicht so weit fortgeschritten, dass es sich breit durchsetzen konnte. Ein weiter nächsterer Schritt, das Ganze irgendwie in der
29:42
gleichen Art und Weise zumindest zu elektrifizieren, kam schon hier im Rahmen oder kurz nach dem Zweiten Weltkrieg. Vannevar Bush, vielleicht haben Sie von dem schon gehört, auch in der WWW-Vorlesung. Das ist einer, der war Direktor in einem Gremium in der USA oder in einer Behörde, die beispielsweise,
30:01
also die dort rüstungsgetriebene Forschung im Zweiten Weltkrieg betrieben hat, also der war auch quasi verantwortlich oder unter seiner Verantwortlichkeit wurde auch das Manhattan-Projekt letztendlich ins Leben gerufen, dann von jemand anderem geführt und von der Army weiter übernommen im Manhattan-Projekt. Das wissen Sie sicherlich oder haben Sie schon mal gehört, da ging es dann um die Entwicklung der Atombombe. Und der hat sich eben auch Gedanken gemacht,
30:21
wie man jetzt Wissen in irgendeiner Art und Weise miteinander verknüpfen und konsumieren könnte. Er ging sogar noch einen Schritt weiter und hat gesagt, eigentlich müssten, wenn Sie das mal irgendwann sehen oder den Artikel durchlesen, sehen Sie so schöne Illustrationen. Da ist so ein Forscher, der hat dann oben auf dem Kopf so eine kleine Kamera mit so einem Auge. Und alles wird mitgefilmt, was Sie quasi so erleben, was Sie lesen und so. Und das kann man dann über diesen schönen Mikrofilm
30:42
und elektromechanisch gesteuerten Tisch dann am Ende dann wieder abrufen, dass man quasi als verlängertes Gedächtnis im Sinne eines Hypertext oder Hypermediasystems sämtliches Wissen, was man quasi aufgesammelt hat, dann hier wieder abrufen kann. Also das war schon 1945 natürlich nur ein Hirngespinst, in dem Sinne, weil man das nie konstruiert hat, aber hier im Live-Magazin schon mal eine Skizze gemacht hat,
31:03
wie sowas aussehen könnte, so hat man sich das eben damals vorgestellt. Aber die Frage, warum sich das Webgram tatsächlich richtig und auch in großem Stile durchsetzen konnte, liegt natürlich irgendwie an der Usability, das heißt an der Gestaltung der Benutzeroberfläche. Kennt irgendeiner von Ihnen noch hier einen solchen rein textbasierten Browser?
31:21
Das ist der Lynx von 1993, also schon ein bisschen älter. Auf Linux kennt man sowas genau. Rein mit der Tastatur zu bedienen, also ganz tolle Sache, aber letztendlich ist uns allen klar, schon ein Jahr später, 1994, gab es den ersten graphisch-basierten Browser und dann konnte man das Ganze mit der Maus bedienen und dann gab es natürlich kein Zurück mehr, was das angeht.
31:42
Und auch heute brauchen wir noch nicht mal mehr eine Maus, da machen wir das natürlich nur mit dem Finger auf dem iPad. Funktioniert das wunderbar. iPad und andere mobile Geräte sind dafür verantwortlich, dass quasi das Wachstum im Internet immer weitergeht. Also es gibt hier diese Internet-Domain-Survey-Host-Count. Da wird eben geguckt, wie viele Rechner sind denn jetzt tatsächlich
32:02
am Internet angeschlossen mit einer statischen IP-Adresse und antworten mir irgendwie, wenn ich sie frage, das wird eigentlich ständig oder zweimal im Jahr großmaßstäblich durchgeführt seit vielen Jahren, wie Sie hier sehen. Und mittlerweile sind wir hier schon fast bei einer Milliarde angelangt. Also die letzte Survey ist durchgeführt worden hier im Juli diesen Jahres
32:22
und da ist man bei 908 Millionen Rechner angekommen. Die haben jetzt eine richtige IP-Adresse. Es sind viel, viel mehr Geräte letztendlich im Netz, weil wir teilen uns ja alle diverse IP-Adressen bzw. die ISPs oder die Service-Provider, die haben einen dynamischen Pool an IP-Adressen, den sie ständig immer irgendwie weitergeben
32:41
und die wir halt nutzen. Dass die irgendwann mal aufgebraucht sind, die IP-Adressen oder schon aufgebraucht sind mit IPv4 und IPv6, das wissen Sie, das ist aber nicht Thema dieser Vorlesung. Gut, im Web hat sich aber seitens des Webgib natürlich auch einiges getan und geändert, hauptsächlich an den Inhalten, während früher noch alles irgendwie so ausgerichtet war,
33:02
quasi in Richtung Massenmedium. Das heißt, es gab einige kommerzielle Informationsprovider, muss man sagen, die jetzt Inhalte ins Netz gestellt haben, weil die das nötige Expertenwissen hatten, Webseiten quasi zu bauen und das Ganze auch teuer war. Und es gab sehr, sehr viele Leute, die das gelesen haben. Es ist eben hingegangen, das kennen Sie auch, in Richtung, jeder kann jetzt irgendwie mit Hilfe der geeigneten Werkzeuge
33:23
auf sehr, sehr einfache Art und Weise Inhalte ins Netz stellen mit Hilfe von Blogs, mit Hilfe von Social Networking-Plattformen und allen möglichen Dingen, die es hier gibt. Und jeder ist jetzt in der Lage, tatsächlich nicht nur Informationen zu konsumieren, sondern auch zu produzieren und interaktiv an dem ganzen Teil zu haben.
33:41
Das Ganze wurde vor ein paar Jahren dann als Revolution und unter dem Stichwort Web 2.0 propagiert, wobei das war nur ein Marketingbegriff. Die Technologien, die dahinter stecken, also wie man das machen kann mit JavaScript und so, das ist eigentlich noch ein ganzes Stückchen älter gewesen. Aber man kam erst so Mitte der 2000er Jahre, also 2005,
34:01
so was auf den Dreh, dass das doch irgendwie was Neues ist und dass das irgendwie eine Revolution jetzt auslösen könnte. Okay, so viel zum Ist-Zustand. Das Problem ist der Ist-Zustand, wir haben ja noch nicht ganz ausgelotet. Das heißt, wir wissen noch gar nicht, wie viel jetzt eigentlich hier im Web zu finden ist. Was wir wissen wollen ist, wo sind denn jetzt genau die Grenzen und wie lebt es sich oder arbeitet man genau an diesen Grenzen.
34:24
Erste Frage, die wir stellen müssen, wie findet man irgendwas im Netz? Also es ist ein bisschen so, als würde man, wenn man bestimmte Informationen sucht, hier die Nadel in einen Heuhaufen suchen wollen. Wir wissen, die Lösung heißt heute normalerweise Google. Das heißt, alles, was es in Google nicht gibt, gibt es eigentlich nicht. Und wenn ich was wissen möchte, dann tippe ich irgendwo bei Google bzw. allein schon in meinem Browser
34:43
in der Zeile, in der ich normalerweise die URL eingebe. Die ist dann irgendwie schon komplett mit Google verbunden und da kann ich dann direkt dann schon Ergebnisse zu meinem Suchbegriff finden. Und deshalb haben wir uns auch in eine ganz bestimmte Art und Weise Informationen im Web zu suchen und zu finden gewöhnt. Aber wir werden im Lauf der Vorlesungen sehen,
35:00
das ist vielleicht nicht unbedingt die zuverlässigste, die sicherste und die einzige Art und Weise, wie man das machen kann. Das generelle Problem bei der Informationssuche im Web, mit den Worten von Douglas Adams gesprochen, das Web ist natürlich groß. Es ist ziemlich groß, es ist wirklich verdammt groß letztendlich. Und keiner weiß eigentlich, wie groß es tatsächlich ist,
35:22
weil man hat aufgehört, irgendwie so richtig zu zählen. Wenn Sie nach Zahlen suchen, wie groß das Web ist, werden Sie unterschiedliche Zahlen finden. Man kann es hier leider nicht mehr so ganz toll lesen. Ich werde Ihnen das mal von oben nach unten erklären. Also die Zahlen sind relativ alt, weil die Suchmaschinenhersteller irgendwann mal aufgehört haben, miteinander zu konkurrieren und zu sagen, wie groß ihr Index ist.
35:41
Und zwar hat man hier schon 2005 aufgehört, als ungefähr 25 Milliarden Dokumente in den Suchmaschinenindexen drin waren. Da haben damals Yahoo und Google immer so quasi den Ball zwischen sich hin und her gespielt. Und irgendwann haben sie dann mal aufgehört, weil man hat gewusst, das sind zwar mehr Dokumente drin, aber das Problem ist, je mehr Dokumente drin sind, desto mehr Schrott ist auch drin. Das heißt, Duplettenerkennung und alles wird natürlich unglaublich schwer
36:03
bei diesen Größenordnungen. Dann wurde 2008 veröffentlicht, dass der Google Webcrawler, der ja ständig dabei ist, Webseiten zu suchen und quasi für den Index aufzubereiten, jetzt mittlerweile 10 hoch 12, das ist in amerikanischen Worten 1 Trillion, also eigentlich eine Billion in unserem deutschen Sprachraum,
36:23
Dokumente erfasst hätte, die natürlich jetzt nicht alle im Index sind, weil da wiederum viele Dupletten dabei sind und nicht unbedingt alles wichtig ist. Und als Google dann vor zwei Jahren den Suchindex umgestellt hat, auf einen neuen Suchindex, auf diesen Koffeinindex, dann wurde wieder eine Zahl bekannt gemacht, nicht mehr wie viele Einträge der Index hat, sondern wie groß er denn tatsächlich ist
36:44
und er hat eben 100 Millionen Gigabyte. Und bei 100 Millionen Gigabyte ist auch uns klar, die wir zwar hier Rechner haben in diesem Future Sock Lab, in dem Gigabyte große Speicher drin sind, aber da passt das natürlich auch noch lange nicht rein, sondern da muss man sich dann wirklich was Besonderes einfallen lassen,
37:00
um auf diese Größenordnungen effizient zugreifen zu können. Dazu müssen wir auch noch wissen, nicht alles, was tatsächlich existiert, ist auch tatsächlich dann bei Google vorhanden. Dinge, die irgendwie in dynamischen Webseiten gelagert sind, die keine Sitemap haben oder die irgendwie Zugriffsrestriktionen unterliegen, das alles ist natürlich nicht letztendlich im Suchindex einer solchen großen Suchmaschine verfügbar.
37:21
Das heißt, das Web ist eigentlich noch ein ganzes Stück größer. Auch dazu gab es mal Zahlen, die mittlerweile alle nicht mehr gelten, das ist schon über zehn Jahre alt, da hat man gesagt, dass Dark Web, also diese Bereiche, die nicht in Suchmaschinen sind, wie wären über 500 mal größer als das normale Web, aber das gilt mittlerweile nicht mehr. Ich habe Ihnen nur mal die Quelle, falls es Sie interessiert, mit angegeben.
37:42
Aber jetzt schon, wo ich drüber rede, ist das Web schon wieder ein Stückchen größer geworden, denn jede Minute wächst es ein ganzes Stück weiter. Ich habe hier so eine schöne Infografik gefunden, die stammt jetzt aus dem Juni. Das heißt, die ist auch nicht mehr ganz aktuell und in der steht quasi drin, um wie viel das Web pro Minute wächst. Also pro Minute 217 neue mobile Nutzer pro Minute.
38:03
Hier steht 48 Stunden, mittlerweile sind es fast 70 Stunden Video-Upload in YouTube. 204 Millionen E-Mails pro Minute, 2 Milliarden Suchanfragen an Google, Facebook-Shares 684.000, dann werden pro Minute 272.000 Dollar ausgegeben,
38:21
das ist auch schön für die Wirtschaft. In Twitter werden über 100.000 Tweets gesendet, bei Apple werden 47.000 Apps aus dem App-Store runtergeladen, in Facebook werden pro Minute 34.000 Likes vergeben, bei Tumblr 27.000 Blogposts veröffentlicht, bei Instagram 3600 Fotos hochgeladen,
38:41
bei Flickr auch über 3000 Fotos hochgeladen und 2000 Leute müssen ständig pro Minute bei Foursquare sagen, wo sie jetzt gerade sind. Also das nur als einige Zahlen, die uns zu denken geben sollten, weil auch die ständig wachsen. Und selbst damit hört es noch nicht auf, also die Informationsflut wird noch immer größer,
39:01
denn das sind jetzt erstmal nur wir, die die Daten produzieren. Es kommt ja noch jemand hinzu, nämlich die Dinge. Das heißt, in diesem Internet of Things, das mittlerweile auch eine enorme Größe erreicht hat, 2008 hat die Zahl quasi der Dinge, die mit dem Internet verbunden sind, also Haushaltsgeräte, Gebrauchsgegenstände und alles Mögliche,
39:20
die Anzahl der menschlichen Internetnutzer bereits überschritten und 2020 geht man davon aus, dass ungefähr 50 Billionen Devices irgendwie, 50 Milliarden, Entschuldigung, also 50 Billionen im Englischen, mit dem Internet verbunden sind und wenn die dann jetzt noch anfangen, quasi sich untereinander zu unterhalten, können sie sich vorstellen, dass da natürlich einiges an Informationen zusammenkommt
39:41
und Suchmaschinen auch einiges zu tun bekommen, wenn man dann nach Informationen sucht. Und wenn wir uns mal vorstellen wollen, wie eine Suchmaschine so die Welt sieht und versteht, müssen wir uns einfach mal eine Webseite angucken in einer Sprache, die wir nicht verstehen. Haben wir jemanden da, der fließend Japanisch spricht?
40:01
Gut, dann werden wir alle sehen, dass uns diese Webseite relativ wenig sagt und wir relativ wenig herausfinden können außer diesen oben die drei Buchstaben Web. Also es wird wohl irgendwas mit dem Web zu tun haben, das ist eine japanische Zeitung, was da genau steht, kann ich Ihnen auch nicht sagen, aber das Problem mit der Information im Web ist eben jede Suchmaschine oder wenn wir auf Informationen darauf zugreifen wollen,
40:22
müssen wir irgendwie entscheiden, was ist wichtig, was ist unwichtig, selbst wenn wir tatsächlich verstehen oder begreifen, was darunter unter diesen Zeichenketten an tatsächlichem Text steht, müssen wir immer noch verstehen, was das Ganze ist. Wir müssen unterscheiden können ganz einfache Sachen, was ist denn jetzt davon von diesen bunten Dingern tatsächlich ein Commercial,
40:40
also eine Anzeige, was ist jetzt tatsächlich wichtige Information. Und selbst wenn wir verstehen, was das Ganze bedeutet, müssen wir auch noch wissen, wo kommt denn diese Information her, können wir der überhaupt trauen? Also die Provenienz der Information, wie glaubwürdig ist das Ganze? Was gehört denn hier jetzt zusammen von diesen Sachen? Was gehört nicht zusammen? Was ist irgendwie redundant?
41:00
Was bestärkt sich gegenseitig? Und als Mensch hat man normalerweise den Vorteil, man hat eine ganze Menge Kontextwissen, man hat eine ganze Menge Weltwissen und wir haben ja eigentlich schon von Anfang an, seit wir gelernt haben zu sprechen, fangen wir ja an, die Welt zu begreifen. Und das haben wir natürlich jedem Rechner von Anfang an voraus, weil wir dieses Begreifen, dieses Verstehen von Bedeutung, von Kindesbeinen an gelernt haben.
41:23
Und das ist auch einer der Punkte, auf die ich hier raus möchte in der Vorlesung. Wir müssen uns nämlich mal klar machen, dass wir uns von vielen Dingen, die mit unserer Sprache zu tun haben, wenn wir jetzt Datenstrukturen entwerfen und nennen jetzt quasi eine Adresse, die wir irgendwie modellieren wollen, Adresse, dann ist jedem von uns klar, wenn da Adresse steht, was die einzelnen Bestandteile dieser Adresse bedeuten.
41:43
Aber wenn Sie quasi diesen Term oder diese Bezeichnung nicht haben und nur die Datenstruktur, die nackte Datenstruktur sehen und die Bezeichnung der einzelnen Bestandteile irgendwie nur A1, A2, A3, A4 ist, dann brauchen Sie viel, viel mehr Informationen, strukturelle Informationen, um entscheiden zu können, das ist jetzt tatsächlich eine Adresse oder das ist keine Adresse.
42:03
Also das zu verstehen, was da wirklich dahinter ist, ist sehr eng an die Sprache gekoppelt. Und genau diesen Punkt, wo fängt die Sprache an, wo fängt quasi das, was wir an implizitem Wissen voraussetzen an, wo hört das auf, was müssen wir der Maschine mitgeben, damit sie das auch versteht, was wir darunter verstehen, das ist genau der Punkt, den wir hier ausloten wollen
42:21
und wie wir dann am Ende Systeme bauen wollen. Das Problem aktuell im Netz ist eben, das Web, wie es hier so schön heißt, ist natürlich für den Brauch für den Menschen bestimmt. Wir wissen alle, Webseiten sind aufgebaut aus HTML und in HTML hat man halt den Nachteil, man kann schön beschreiben, wie irgendwas dargestellt werden soll, man kann auch beschreiben, wie Information miteinander vernetzt oder verlinkt ist,
42:43
aber man kann eben nicht beschreiben mit HTML, was diese Information denn nun bedeutet, was ist denn nun eine Adresse, kann ich mit HTML irgendwie nicht ausdrücken. Also die Bedeutung, das ist genau das, was bedeutet die Information, was aktuell im Netz so nicht auszudrücken ist.
43:03
Wenn ich aktuell sage, meine ich natürlich, natürlich können wir jetzt seit einigen Jahren schon im Web ausdrücken, was Dinge bedeuten, dafür haben wir ja das Semantikweb und die Semantikweb-Technologien und die mache ich ja hier schon in der Lehre seit 2005, das heißt, es geht schon, aber es hat sich noch nicht so in die Breite, quasi ist es noch nicht vorgedrungen, dass jeder wann weiß, wie das funktioniert und was die eigentlichen Knackpunkte hier sind.
43:24
Zudem, was die Dinge bedeuten, lernen wir jetzt vier Begriffe kennen, die uns immer wieder über den Weg laufen und die wir verstanden haben müssen. Das erste ist die Semantik. Klar, die Vorlesung heißt Semantikweb-Technologien, das hat natürlich irgendwas mit Semantik zu tun und der Begriff kommt aus dem griechischen Semantikos,
43:42
das heißt zum Zeichen gehörend, beziehungsweise das ist eben die Sprache oder die Lehre von der Bedeutung oder Bedeutungslehre und die ist ein Teil der Linguistik und beschäftigt sich eben mit dem Sinn und der Bedeutung von sprachlichen Symbolen und von Zeichen. Also wie kann ich ein solches Zeichen interpretieren,
44:02
was steht da für eine Bedeutung dahinter? Und wenn man sich das in der Sprachwissenschaft anschaut, funktioniert Semantik so, dass man eben von der Bedeutung von grundlegenden atomaren Begriffen versucht, die Bedeutung von Komplexeren herzuleiten, mit Hilfe syntaktischer Regeln, also ähnlich wie sie es auch in den formalen Sprachen gelernt haben
44:21
und in der Logik gelernt haben. Also man versucht Regeln aus der Syntax herzunehmen und versucht die dann anzuwenden, um damit Semantik zu bauen. Wie das funktioniert, werden wir in der Logik kennenlernen. Hört sich jetzt sehr kompliziert an, ist aber gar nicht so kompliziert. Wichtig ist nur, dass die Bedeutung von sprachlichen Zeichen natürlich immer davon abhängt, in welchem Kontext,
44:41
das heißt in welcher Umgebung, in welcher Situation sie gerade kommuniziert werden. Das heißt, die Bedeutung einer Nachricht oder irgendeiner Information hängt vom Kontext ab, also von der Umgebung, und dazu noch von der sogenannten Pragmatik. Pragmatik ist die Intention,
45:00
die der Sender einer Nachricht hat. Also er kann das ironisch meinen, er kann das ernst meinen, er kann das nicht ernst meinen. Das heißt, jede Information, die ich kommuniziere, da verbinde ich irgendeine Absicht mit. Und das ist auf einer abstrakten Ebene relativ hoch angesiedelt. Das heißt, um die Bedeutung von irgendwas herauszubekommen, muss ich auf der einen Seite wissen, in welchem Kontext ist diese Information gegeben,
45:23
also was hat jemand davor, danach gesagt, wo befinde ich mich zeitlich, räumlich. Also beispielsweise, wenn ich von Deutschland spreche, ist heutzutage irgendwie klar, was ich meine. Wäre ich hier vor 250 Jahren gestanden und hätte von Deutschland gesprochen, wäre das was ganz anderes gewesen. Also auch schon von den rein geografischen Grenzen verändern sich Dinge über die Zeit.
45:41
Und das gehört mir zum Kontext. Also zeitlicher Kontext, ganz wichtig, je nachdem, in welcher Zeit eine Aussage getroffen wird, hat es eine andere Bedeutung. Weil die Dinge, von denen ich rede, zeitabhängig sind und dann auch was anderes bedeuten können. Andere Grenzen haben, andere Dimensionen, andere Ausdehnungen haben, und dementsprechend ist das Ganze natürlich, wie Sie jetzt ahnen können, alles andere als einfach.
46:02
Und zu dem Kontext kommt dann oben drüber noch die Pragmatik, also was meine ich damit und welche Intention habe ich. Und das macht es dann kompliziert. Semantik, also der zentrale Begriff. Semantik baut auf auf die Syntax. Syntax haben Sie alle schon mal gehört. Kennen Sie wenigstens noch vom Deutschunterricht irgendwie. Syntax ist auch aus dem Griechischen.
46:22
Das bedeutet letztendlich nichts anderes als die Zusammenstellung oder die Anordnung dann von Zeichen. Und man nennt es auch in der Grammatik normalerweise die Lehre vom Satzbau. Das ist die Syntax. Und in den formalen Sprachen kennen Sie das auch. Da gibt es dann Regeln, nach denen, quasi, oder die Syntax definierte Regeln, nach denen wohlgeformte Ausdrücke
46:42
aufgebaut werden können. Also das ist das, was man eben braucht, quasi, um in den formalen Sprachen tatsächlich arbeiten zu können. Gehört jetzt ein Ausdruck mit zu einer Sprache oder nicht, kann ich eben mit den Syntaxregeln, die die Grammatik festlegt, dann hier entsprechend entscheiden. Und in der Informatik spricht man auch von Syntax. Da gibt die Syntax an der Programmiersprache,
47:01
das müssen Sie sich nicht merken, die normative Struktur von Daten letztendlich an. Aber für uns ist Syntax letztendlich wichtig, quasi, dadurch, dass sie Regeln angibt, wie wohlgeformte oder erlaubte Ausdrücke aufzubauen sind. Kontext hatte ich ja gerade schon genannt. Der Kontext quasi, contextus, das kommt diesmal aus dem Lateinischen,
47:21
das Wort, gibt quasi oder beschreibt das Umfeld eines Wortes und eines Begriffes im Zusammenhang mit den umgebenden Worten, die hier letztendlich dabei sind und in welchem Bezug die miteinander stehen. Also der Kontext quasi gibt hier irgendwie an quasi oder gibt einen Hinweis darauf, wie jetzt Information zu interpretieren ist
47:41
und welche Bedeutung dahinter steckt. Und da unterscheidet man zwischen dem sogenannten generellen Kontext, dazu gehören Sachen, wie wir schon gesagt haben, Ort und Zeit, in dem eine Aussage getroffen worden ist und quasi wie die Dinge miteinander zusammenhängen und dann gibt es auch noch den persönlichen oder sozialen Kontext. Das heißt, wenn ich jetzt Ihnen was sage, habe ich eine ganz besondere Rolle
48:00
in unserem sozialen Interagieren und spreche hier als Dozent. Deshalb quasi ist der Kontext dessen, was ich sage, immer mit der Rolle da auch zu betrachten, in der ich jetzt mich gerade befinde. Und normalerweise ist es so, dass ich also quasi jetzt in meiner Rolle das, was ich sage, auch ernst meine und quasi Ihnen jetzt nicht bewusst irgendwelche Fehlinformation
48:21
geben möchte, weil wir ja alle möchten, inklusive ich auch, das in eine gute Note am Ende in der Klausur schreiben. Und oben drüber kommt dann noch die Pragmatik, also die Intention, die letztendlich der Kommunizierende hat oder die Absicht, in der die Nachricht abgegeben worden ist. Also es spiegelt
48:41
letztendlich wieder, wie oder mit welcher Absicht die Sprache benutzt worden ist. Pragma, ebenfalls wieder griechisch, heißt die Handlung und gibt die Absicht wieder, in der die Sprache benutzt wird und eine Nachricht kommuniziert wird in dem Fall. Also diese vier Begriffe, da werden Sie immer wieder drauf stoßen,
49:00
Syntax, Semantik, Kontext und Pragmatik, weil die wichtig sind, um die Bedeutung von den Dingen irgendwie aufzulösen und zu bestimmen. Das Problem im Web ist, wenn wir Semantik dort suchen oder Bedeutung suchen, die finden wir nicht. Die ist nicht explizit gegeben, weil Semantik steckt in unserer
49:20
Sprache, implizit verborgen drin und wir alle verstehen die Sprache, das heißt wir verstehen auch, was mit der Sprache gemeint ist. Meistens. Jeder von uns hat natürlich seinen eigenen Kontext, wenn er irgendwas liest. Deshalb kann es natürlich auch passieren, wenn zwei Leute miteinander kommunizieren, dass A was anderes meint, als B verstanden hat. Also das ist auch wieder
49:40
vom Kontext, von der Intention und nehme ich mein Gegenwie, nehme ich mein Gegenüber war, wie interpretiere ich das abhängig. Aber letztendlich machen wir quasi ständig in unserem Geiste Annahmen darüber, was könnte der andere jetzt gemeint haben und wir versuchen uns dann, wenn wir kommunizieren, immer auf den kleinsten gemeinsamen Nenner zu einigen, sodass die Verluste, die dann quasi bei der Misskommunikation
50:00
auftreten, so gering wie möglich gehalten werden. Man kann das auch ein bisschen konkretisieren, wo die Probleme eben aufgrund dieser impliziten Semantik auftreten. Zum einen beim Information Retrieval, das heißt, wenn ich in einer Suchmaschine etwas suche, kennen Sie alle, kann es passieren, dass ein Begriff, den Sie hier suchen, mehrdeutig ist. Also hier im Englischen Jaguar oder im Deutschen, wenn Sie Golf suchen, ist klar, bei Golf
50:22
manche damit das Auto, manche damit die Sportart, manche damit den Golf von Mexiko. Bei Jaguar können es auch diverse Sachen sein. Also Sprache ist immer mehrdeutig. Das bedeutet, dass unter den Suchergebnissen meiner Suchmaschine, die ja wirklich jetzt nur nach sprachlichen Zeichen sucht und vergleicht vielleicht noch Stammformen davon, von irgendwelchen sprachlichen Formen bestimmt,
50:40
aber mehr nicht. Also quasi jetzt nicht auf die eindeutige Bedeutung dieser Begriffe abzielt, sondern wirklich nur Textvergleiche macht, da bekomme ich viele nicht relevante Ergebnisse zurück. Ganz einfach aus dem Grund, weil eben auf solche mehrdeutigen Dinge, Polysemi nennt man das, ein Begriff hat mehrere Bedeutungen, in Suchmaschinen normalerweise keine Rücksicht genommen wird, genauso wenig auf unterschiedliche Kontexte.
51:02
Und umgekehrt, bei einer Suchmaschine finden Sie, kennen wir ja von Google, auch nur wirklich das, wonach Sie auch tatsächlich gesucht haben. Also der Suchstring muss im Dokument enthalten sein. Es kann aber umgekehrt sein, dass zu einem bestimmten Begriff andere Begriffe existieren, die genau das gleiche bedeuten, also Synonyme.
51:21
Die werden natürlich nicht gefunden in der Suchmaschine, sondern da muss exakt der String, den Sie oben eingeben, der muss dann auch in dem Dokument sein. Sie können es noch weiter treiben, also nicht nur Synonyme, Sie können Begriffe auch komplett umschreiben und quasi immer vermeiden, bestimmte Begriffe zu verwenden, aber Sie wissen genau, worüber Sie reden. Da muss dann die Maschine erst mal drauf kommen und die Suchmaschine kann das nicht. Das heißt,
51:41
in der Sprache haben Sie sehr, sehr viel Möglichkeiten, Bedeutung implizit auszudrücken, die Sie und ich verstehen, die aber ein Rechner noch lange nicht versteht, weil er eben auf einfache syntaktische Zeichenvergleiche festgelegt ist und keiner ihm gesagt hat, was die einzelnen Worte bedeuten und was jetzt ein Synonym ist und was jetzt ein Homonym ist, also quasi diese sprachlichen
52:02
Feinheiten, die gehen erst mal der Suchmaschine ab. Da kommen wir dann auch gleich zum nächsten Problemfeld, Nummer 2, nämlich das Problem mit der Informationsextraktion. Wir hatten das schon an dieser japanischen Webseite einer Zeitung gesehen, wenn wir da Informationen rausholen wollen. Das kann letztendlich nur jemand, der die Sprache
52:21
auch versteht und der ein Mensch ist, dann am Ende. Das heißt, Informationsextraktion kann auf korrekte Art und Weise nur durch einen menschlichen Agenten vorgenommen werden, weil der sich mit der Sache auskennt, der kennt den Kontext, der hat Weltwissen angesammelt, der hat sehr, sehr viel Erfahrung. Wir alle lesen schon seit vielen Jahren Zeitungen und können deshalb interpretieren, was in der Zeitung steht. Deshalb
52:41
Informationsextraktion ist für den Menschen ganz, ganz einfach, für die Maschine sehr schwer, wenn es sich über die normale, syntaktische Ebene hinaus erheben soll und die Bedeutung dessen, was da drin steckt, denn tatsächlich auch verstanden werden soll, weil die Bedeutung vieler Dinge, die wir hier sprachlich lesen, die steckt ja nicht quasi in den Worten drin. Die ist nicht
53:01
explizit gegeben, sondern die steckt implizit drin. Also wir haben sehr, sehr viel implizites Wissen und deshalb ist hier auch absichtlich dieses Bild hier von diesen Sherlock Holmes Accessoires genommen worden. Wenn Sie es erkannt haben auf dem Bild, haben Sie geschlossen, aha, da geht es um einen Detektiv, der normalerweise immer aufgrund seiner tollen Kombinationsgabe in der Lage ist,
53:20
hier jetzt Kriminalfälle zu lösen. Das heißt, da steckt auch in so einem Bild, genauso wie jetzt in Worten, implizit vorhandene Informationen drin, weil Sie das irgendwann mal gelernt haben. Wissen Sie quasi, wie Sie diese implizite Information, die da drin steckt, nutzen und interpretieren sollen. Und solches implizite Wissen ist eben eine Herausforderung
53:41
für eine Suchmaschine und genauso auch für Semantik Web, weil dort stehen wir vor der Aufgabe, wir müssen implizit vorhandene Informationen explizit machen oder irgendwie dafür sorgen, dass wir auf die explizite Information kommen, um das Ganze verstehen zu können. Nächstes Problemfeld ist Wartung. Wenn wir nicht verstehen, was in solchen Webseiten und Informationen
54:00
drinsteckt, fällt es uns hier sehr schwer, ab einer bestimmten Komplexität, die Dinge denn tatsächlich auch noch warten zu können und dafür sorgen zu können, dass alles konsistent ist. Und zwar unterscheidet man hier zwischen sogenannter syntaktischen Konsistenz und semantischer Konsistenz. Syntaktische Konsistenz ist noch eine ganz einfache Sache. Da gucken Sie einfach nur auf die Links, die in Ihrer Webseite
54:21
irgendwo anders hingehen und solange ein Link tatsächlich auch auf eine andere Seite zeigt und Sie jetzt nicht 404 oder irgendwas zurückbekommen als Http-Response-Code, dann wissen Sie, es ist syntaktisch-konsistent, der Link ist da. Wenn er nicht da ist, ich kann inkonsistente syntaktische Links finden, entsprechend dem Http-
54:41
Return-Code, den ich zurück bekomme. Semantische Inkonsistenzen sind viel, viel schwieriger zu finden, weil stellen Sie sich mal vor, Sie haben jetzt hier eine Webpage, die auf eine andere Webpage verlinkt, nehmen wir mal an, wir hätten hier unsere Webpage zu unserer Vorlesung und wir verlinken irgendwie auf eine andere Seite vom HPI und sagen dann, dieser Link geht beispielsweise
55:01
zur Homepage von Nadine's Publikation. Und das stimmt jetzt auch und Nadine kommt aber jetzt und denkt sich, naja, diese Publikationsseite, da schreibe ich irgendwas anderes drauf. Ich könnte beispielsweise, hat jemand ein gutes Beispiel? Mir fällt jetzt hier nichts Vernünftiges ein. Nehmen wir mal an, Nadine würde dort die Fotos von
55:22
unserer Forschungsgruppe publizieren. Dann hätten wir in der einen Webseite eben stehen, hier geht es zu den Publikationen von Nadine und wir kommen aber auf eine Seite mit lauter Fotos. Das heißt, der Inhalt hat sich verändert, das Link ist noch da, aber semantisch entsteht eine Inkonsistenz, weil quasi die Information auf der verlinkten Seite und die Information auf der Seite, auf die verlinkt wird, nicht mehr übereinstimmen.
55:43
Und ob das jetzt tatsächlich noch stimmt, ob das beides übereinstimmt oder nicht, das festzustellen ist viel, viel schwieriger und viel aufwendiger. Und insbesondere dann, wenn Sie sich Webseiten angucken, die aus tausenden und Millionen von Seiten bestehen und wollen dann noch semantische Konsistenz sicherstellen, dann wird es wirklich sehr, sehr schwer. Ja und das Vierte ist, natürlich
56:02
liegt alles irgendwie im Auge des Betrachters. Das heißt, jeder von uns ist in der Lage, auf grund seiner persönlichen Situation, die Dinge anders zu interpretieren und erwartet auch quasi auch von einer Suchmaschine andere Ergebnisse, weil er andere Erwartungshaltungen hat, andere Interessen hat, andere Vorlieben hat. Um jetzt quasi Informationsangebote zu
56:21
personalisieren, müssen wir natürlich auch noch entsprechend wissen, was hat denn jetzt der Benutzer für Vorlieben. Und da ist es dann immer so ein Trade-off, wie viel möchte ich von mir selbst preisgeben, um quasi die gewünschte Information so bequem aufbereitet zu bekommen, dass es jetzt tatsächlich das ist, was ich immer wissen möchte. Einfaches Beispiel, wenn Sie sich ein Auto
56:41
kaufen wollen und jetzt nach Golf suchen, ist es für uns irgendwie klar, ja es wäre vielleicht jetzt interessant, die Autos mit diesem Namen herauszusuchen und jetzt nicht die Golfplätze in Deutschland. Also das heißt, da ist Information aus dem persönlichen Umfeld irgendwie nötig, um jetzt genau dann das gewünschte Ergebnis zu finden. Und da
57:02
ist eben immer dann dieser Wettstreit zwischen Personalisierung und Datensicherheit, wieviel möchte ich denn eigentlich auf der anderen Seite preisgeben. Auf der anderen Seite muss ich natürlich irgendwo hergehen und muss diese persönlichen Informationen in irgendeiner Art und Weise so kodieren, dass man sie auch so verwenden kann, dass man eben personalisiert inhaltlich darauf
57:20
aufbauend Ergebnisse liefern kann. Also das ist auch nicht so einfach. Wir werden aber kennenlernen, wie das geht. Das heißt, wir haben jetzt eine ganze Menge Probleme kennengelernt und die Frage ist ja, was machen wir damit? Also war es das jetzt? Game over? Müssen wir damit weiterleben? Nein, müssen wir natürlich nicht, war eine rhetorische Frage. Jetzt zeige ich Ihnen nämlich, wie die Lösung dieser Probleme aussieht,
57:42
nämlich was passiert, wenn wir jetzt hier tatsächlich Semantik explizit machen, im Semantik-Web und diese Semantik-Web-Technologien einsetzen können. Dazu müssen wir noch mal einen kurzen Schritt zurückgehen. Wir erinnern uns ja an den Herren hier, an Tim Berners-Lee, der als, habe ich ein sehr schönes Bild gesehen, da stand hier Tim Berners-Lee und unten drunter stand Web-Developer.
58:02
Also das fand ich großartig, weil er war ja wirklich der Web-Developer. der hat gesagt, dass er das Web eigentlich mit einer ganz anderen Intention entwickelt hat, als es heute genutzt wird. Nämlich eigentlich hat er gesagt, das ist hier das schöne Zitat,
58:26
also Maschinen sollten zusätzlich zur normalen menschlichen Kommunikation den Menschen quasi hier bei der Kommunikation unterstützen und bei den Aufgaben, die er hier im Netz bei der Kommunikation bewältigen möchte. Aber um das machen zu können, ist es notwendig, dass die Information,
58:42
also die Inhalte der Kommunikation, auch automatisch verstanden werden können. Und dieses automatische Verstehen, das heißt, Informationen müssen gelesen und korrekt interpretiert werden von Maschinen, also müssen verstanden werden, kann man auf zwei Arten bewerkstelligen. Das eine ist, man versucht linguistische
59:01
Technologien einzusetzen, das ist die Art und Weise, wie es im Information Retrieval beispielsweise geschieht, wenn Suchmaschinen versuchen, Informationen zu suchen und zu schließen. Das heißt, da versucht man aus den implizit in der Sprache vorliegenden Informationen drauf zu schließen, was es bedeutet und versucht daraus Ergebnisse zu generieren
59:21
mit manchmal guten, manchmal eben qualitativ schlechten Ergebnissen. Und die zweite Möglichkeit wäre jetzt nicht die implizit in der Sprache verborgene Bedeutung zu ermitteln, sondern eben explizit zu der Sprache, die wir haben, nochmal zusätzliche Informationen mitzugeben, in denen jetzt die Bedeutung
59:41
kodiert vorliegt. Und zwar im Sinne von sogenannten semantischen Metadaten. Das heißt, man gibt zu so einer Webseite semantische Metadaten mit, in denen die wichtigsten Dinge oder deren Bedeutung dessen, was hier in der Sprache ausgedrückt steht, nochmal explizit abgebildet wird. Und zwar so explizit, dass eine Maschine tatsächlich in der Lage ist, das zu lesen und zu verstehen.
01:00:01
Klingt erst mal sehr einfach, gut, wir geben diese Bedeutung explizit mit, dann kann eine Maschine das lesen und verstehen, aber wir wissen noch lange nicht, wie man das genau machen soll, diese Bedeutung explizit mitzugeben. Also das müssen wir uns nochmal genau überlegen, bzw. wird das Inhalt der nächsten Vorlesungen sein, der nächsten Stunden sein, uns zu überlegen, wie man denn jetzt explizit Semantik angibt und so, dass man sie tatsächlich verstehen kann.
01:00:23
Das heißt, im Semantik-Web liegt explizite Semantik vor, ganz anders als im aktuellen Web, das quasi noch jugendfrei ist, ohne Semantik, wenn explizite Semantik da ist, kann man die Sachen tatsächlich manuell verstehen. Dazu müssen wir uns nochmal ganz kurz in Erinnerung rufen, was bedeutet das eigentlich, irgendwas zu verstehen, insbesondere textuelle Informationen, da habe ich Ihnen ein Beispiel rausgesucht.
01:00:46
Einfaches Beispiel 2010, da war hier World Cup, irgendwo in Großbritannien, und ich habe eine Zeitung herausgesucht, auch wenn Ihre Englisch kennen Sie jetzt vielleicht ganz gut, dann werden Sie nicht sofort auf dem ersten Blick verstehen, was quasi hier
01:01:03
gemeint ist, mit diesem Why Snub Me Fab, wer weiß sofort, was damit gemeint ist, dann habe ich es richtig rausgesucht. Also es geht hier irgendwie um zwei Leute, unten steht da noch James Getting Frustrated on Bench, jetzt könnte man natürlich meinen, gut, es sind zwei Namen vielleicht drin, Snub und Fab, der eine könnte, und James ist auch noch drin, also was bedeutet jetzt was,
01:01:23
wer ist wer, wie hängen die irgendwie miteinander zusammen, und wir sehen, da steht World Cup drüber, es hat was mit Fußball zu tun. Also man muss erstmal hergehen, man muss quasi die Texte hier aus den Bildern herauslesen, und dann muss man sich überlegen, okay, was könnte jetzt, wir suchen uns ein bestimmtes Ding heraus, Fab, ist das jemand oder was, was ist das?
01:01:40
Und herauszufinden, was das ist, und das kann ja mehrdeutig sein, das ist ja das große Problem, wir müssen eindeutig feststellen, was ist denn die Bedeutung genau dieses Begriffs, und dieses eindeutige Feststellen von einer Bedeutung nennt man Disambiguierung, also das heißt, wir wollen die Mehrdeutigkeit, die Ambiguität auflösen und wollen quasi eine eindeutige Lösung für die Bedeutung von diesem Ding finden.
01:02:03
Und wenn Sie sich das jetzt mal angucken, wenn wir hier ein sogenanntes Entity Mapping, werden wir auch noch später durchnehmen, durchführen, wollen, also Fab kann wirklich vieles bedeuten, wenn man nachschlägt in der Wikipedia, es fängt an mit einem Baschmetall, das Fab heißt, es geht weiter mit einem nicht näher bezeichneten Canadian Gay Magazine, es geht weiter mit dem Film Advisory Board, es gibt eine Federacion Atletica de Bolivia, es gibt einen Brasilien Basketball
01:02:27
Player, also einen brasilianischen Basketball Player mit dem Namen Fab Melo, und dann gibt es Leute wie beispielsweise hier den Drummer von einer Gruppe, die nennt sich The Strokes, Fabrizio Moretti, kannte ich vorher auch noch nicht, und es gibt dann den, der tatsächlich damit gemeint war, muss man aber erst mal drauf kommen, dass
01:02:40
der das ist, das ist hier der Nationaltrainer, der britische Fabio Capello, also Manager of the UK National Football Team. Das heißt, der erste Prozess, wenn man solche Informationen analysiert, man muss irgendwie herausfinden, ok, wie kriege ich das Ding, oder wie kriege ich das System, wie kann das herausfinden, dass es sich hier bei diesem Text tatsächlich um Fabio Capello handelt.
01:03:03
Wenn wir das dann haben, herausgefunden haben, das ist Fabio Capello, nutzend das irgendwie im Moment noch gar nichts, ich weiß nicht, wer von Ihnen kannte Fabio Capello vor dem heutigen Tag, dann nehme ich mal an, dann haben Sie eine Affinität zu Fußball. Genau. Das heißt, Fabio Capello ist mehr als nur eine Textzeichenkette, sondern
01:03:22
das ist, einen muss man dazu wissen, ein Soccer Manager, also ein Trainer. Und das reicht auch noch nicht als Information, wir müssen ja wissen, was ein Fußballtrainer ist, er ist beispielsweise eine Subklasse von der Klasse Person, also ein Fußballtrainer ist eine Person, und dieses Wissen, das wir im Hintergrund dann irgendwie haben und damit verbinden können, das hilft uns schon mal wirklich ein ganzes Stück weiter.
01:03:40
Das heißt, abstrakt ausgedrückt, wir müssen irgendwie herausfinden, Fabio Capello ist eine Identität, eine Entität, wir müssen die einer Klasse zuordnen, wie hier beispielsweise dem Fußballtrainer, und wir müssen auch noch herausfinden, wie hängen denn die einzelnen Klassen miteinander zusammen, um zu verstehen, was es bedeutet, ein Fußballtrainer oder eine Person zu sein.
01:04:01
Ganz einfaches Beispiel dazu, wir haben hier wieder oben Entitäten, unten Klassen, kennen Sie ja aus der objektorientierten Programmierung, wir müssen noch ein bisschen mehr angeben, um zu verstehen, was jetzt hier eine Person sein kann. Wir können also beispielsweise sagen, eine Person hat immer einen Geburtsort, und wenn jetzt Fabio Capello ebenfalls einen Geburtsort hat, das ist dann auch ein ganz bestimmter Ort, können wir
01:04:20
beispielsweise aus dieser Information schon schließen, der Geburtsort von Fabio Capello ist auf jeden Fall ein Ort. Auf der anderen Seite können wir auch noch herauskriegen, dass beispielsweise eine Person ein Geburtsdatum hat, und Fabio Capello hat dann entsprechend dazu auch ein Geburtsdatum, und wir können ableiten, dass das Geburtsdatum von Fabio Capello tatsächlich ein Datum ist. Das heißt, so kann man sich wissen, um Zusammenhänge quasi erschließen aus eben vorgegebenen Wissensrepräsentationen, die man miteinander in Bezug
01:04:49
setzen, wenn das Netz, das man hier aufbaut, groß genug ist, wenn wir auch irgendwann mal verstehen, was ein Fußballtrainer ist. Allerdings brauchen wir dafür natürlich noch viel, viel, viel mehr Information, aber das soll quasi nur mal dazu dienen, um Ihnen einen Anhaltspunkt zu geben, wie funktioniert das Ganze, wie
01:05:03
kriegen wir quasi die Bedeutung heraus, wie kodieren wir Bedeutung in irgendeiner Art und Weise. Und damit kommen wir dem Begriff das Semantic Web schon ein ganzes Stück näher, nämlich das Semantic Web ist definitionsgemäß nichts anderes als eine Erweiterung des aktuellen World Wide Web, nur eben mit dem Zusatz, dass
01:05:22
man jetzt eben den Dingen, die da drin als Informationen drin stehen, eine wohl definierte Bedeutung zuordnen kann. Das muss nicht alles in einer Webseite stehen, da braucht nur ein Link quasi dorthin zu stehen, wo erklärt wird, was jetzt der Fußballtrainer ist. Und das Ganze muss maschinenlesbar und maschinenverstehbar sein und dann kann man verstehen, was quasi
01:05:41
an Informationen hier drin steckt und dann können wir sie entsprechend automatisiert weiterverarbeiten, also wirklich wunderbar. Das heißt, die Bedeutung der Information, die Semantic, wird explizit angegeben in formalisierten, standardisierten Wissensrepräsentationen, sogenannten Ontologien und damit wird es dann sehr sehr einfach, dieses Wissen automatisiert weiterzuverarbeiten.
01:06:03
Damit sind wir dann in der Lage, quasi auch Daten, die auf den ersten Blick nicht zusammenpassen, die in unterschiedlichsten Formaten abgelegt sind, quasi zu integrieren, zusammen zu behandeln, zu verstehen, wie die miteinander zusammenzugehören. Und wir sind auch in der Lage, versteckte Informationen, implizite
01:06:21
Informationen aus dem gegebenen Wissen herauszuschließen mit Hilfe von Deduktionsprozessen. Also am Ende ist das Semantikweb nichts anderes als eine globale Datenbank, in der quasi so eine Art universelles Netzwerk von semantischen Aussagen abgelegt ist. Und wenn Sie mich jetzt fragen, wie machen wir das, dann zeige ich Ihnen hier diesen schönen
01:06:41
Architekturstapel und da steht letztendlich alles drin, was wir dann im Rest der Vorlesung oder in den nächsten zwei Dritteln machen werden, um uns diese ganzen Technologien, die hier ineinander verzahnt sind, mal anzuschauen. Damit Sie ein bisschen einen besseren Eindruck haben, was da eigentlich so drin steckt, greifen wir uns ein paar Sachen mal beispielsweise heraus. Also ganz unten stehen, müssen wir als erstes mal sagen, worüber wir uns unterhalten.
01:07:04
Also die Dinge müssen irgendwie identifiziert werden. Und weil wir ja im Web sind, identifiziert man Dinge ganz einfach, am besten über einen URL kennen Sie. Das abstrakte Konzept des URLs ist das sogenannte URI, der Uniform Resource Identifier. Damit kann ich dann nicht nur jetzt Webdokumente identifizieren, sondern auch alle möglichen Dinge im realen Leben können,
01:07:23
irgendein URI bekommen, irgendein Identifizierer, den ich dann benutzen kann, um über diese Dinge dann stellvertretend Aussagen zu treffen. Das ist auch wieder eine lustige Dinge, unser Gehirn oder wir selbst sind ja in der Lage, aus abstrakten Zeichenketten, wie hier, oder wenn ich ein Wort spreche, aus Symbolen quasi, dasjenige herauszufiltern, was ich damit meine.
01:07:48
Und die Aussagen dann auch so zu verstehen, dass wenn ich jetzt eine Aussage treffe, beispielsweise über Jörg, sie nicht unbedingt Jörg vor sich stehen sitzen haben müssen, oder Jörg genau das tun sehen müssen, was ich jetzt von ihm sagen würde, um sich
01:08:01
vorzustellen, was er tut. Das ist sozusagen, in unserem Kopf findet so eine Art Stellvertreterkrieg statt. Und wir nehmen quasi Begriffe anstelle des tatsächlichen Dings und genau dieses stellvertretende Element wird auch hier im Semantikweb genutzt, um quasi Aussagen über Dinge in der realen Welt treffen zu können und die trotzdem zu verstehen.
01:08:24
Also merken Sie sich nur, Dinge werden hier normalerweise durch eine ganz einfache URI gekennzeichnet, damit ich Aussagen drüber treffen kann. Beispielsweise ein ganz wichtiges Ding, worüber wir noch öfters reden werden, ist die Wikipedia und darauf aufbauend die semantische Version der Wikipedia, die Debipedia.
01:08:41
Wer von Ihnen hat schon mal was von der Debipedia gehört? Das sind ja doch einige, wunderbar, brauchen wir dann so groß gar nicht zu wiederholen. Sie sehen hier in der Wikipedia gibt es hier an der Seite diese Infoboxen. Das sind Tabellen, die man hier am rechten Rand sieht, in denen es strukturiert Information abgelegt, die dann in Form quasi einer semantischen Datenbank hier in der Debipedia zugegriffen werden kann.
01:09:04
Dort ist diese ganze Information dann über Fabio Capello, die jetzt extrahiert worden ist, aus der Infobox abgelegt und mit der kann ich dann entsprechend arbeiten. Das Ganze ist in einer einfachen Beschreibungssprache im Resource Description Framework, also hier in RDF.
01:09:22
RDF-Aussagen setzen sich immer ganz einfach zusammen, die bestehen immer aus einem Subjekt, über das eine Aussage getroffen wird, also hier in dem Fall aus Fabio Capello. Und ich sage, Fabio Capello ist vom Typ Soccer-Manager, also der ist ein Fußball-Trainer und das ist auch schon ein fertiger Satz. Also hier aus RDF-Subjekte, RDF-Property und RDF-Object setzt sich ein RDF-Statement zusammen
01:09:45
und viele solche Triple-Formen dann am Ende Aussagen, mit denen ich dann Wissen quasi kodieren kann. Das hilft uns jetzt noch nicht viel weiter, damit können wir zwar ein großes Netzwerk irgendwie basteln. Wir brauchen aber im Hintergrund dann auch noch normative Aussagen darüber, was ist denn jetzt ein Fußball-Manager, was ist eine Person, eine Person,
01:10:04
wie hängt die zusammen mit anderen Dingen, wie jetzt beispielsweise mit Orten oder mit Zeitpunkten. Das mache ich dann eine Ebene höher, mit beispielsweise RDF-Schema oder auch Owl, damit bin ich in der Lage dann, sehen Sie hier oben, einige Beispiele anzugeben, wie ich solche Klassendefinitionen und solche Zusammenhänge kodieren kann.
01:10:22
Falls Ihnen das Ganze jetzt noch wenig sagt, das ist nicht schlimm, aber das werden Sie in zwei, drei Wochen quasi aus dem MFF beherrschen. Bis jetzt sieht das Ganze noch aus wie eine ganz harmlose Datendefinition. Interessant wird es dann mit dem nächsten Schritt, den ich auch hier nur andeutungsweise quasi erstmal zeige, nämlich, ich kann hergehen und kann sogenannte Constraints oder Regeln mit einführen, die beispielsweise sagen, Fabio Capello ist eine lebende Person.
01:10:45
Auf der anderen Seite gibt es auch noch tote Personen und ich stelle jetzt die Regel auf, dass lebende und tote Personen, die sollen letztendlich das Jungt sein, diese beiden Mengen. Also das heißt, so viel wie keiner kann gleichzeitig leben oder tot sein, außer in irgendwelchen billigen Vampirfilmen.
01:11:00
Und das hilft mir schon weiter quasi, die Welt, in der ich mich hier bewege, die Welt, die ich hier modelliere, zu verstehen, weil ich Regeln angeben kann, wie Dinge miteinander zusammenhängen. Und so kodiere ich dann mithilfe logischer Aussagen Wissen, die mir dann helfen, quasi die Welt zu verstehen. Also hier unten quasi kann ich dann mithilfe der Beschreibungslogik, mit einem beschreibungslogikten Ausdruck quasi zeigen oder formulieren,
01:11:25
was ist denn jetzt quasi ein toter Mensch. Und ein toter Mensch ist jemand, der ein Todesdatum hat, der jetzt hier in Beschreibungslogik unten drunter steht. Die Ausdrucke werden Sie dann wenig später, so gegen Weihnachten dann auch, werden die Ihnen fließend von der Hand gehen.
01:11:40
Was nutzt das Ganze, wenn ich es nicht abfragen kann? Ich hatte die Sprache schon mal ganz am Anfang erwähnt. Sparkle ist jetzt eine Sprache mit der, oder eine Abfragesprache ähnlich SQL, mit der ich an solche Wissensbasen ganz einfache Abfragen machen kann. Also hier ist ein einfaches Beispiel formuliert. Hier suche ich nach allen Fußballspielern, die in der Nationalmannschaft mehr als zehn Tore geschossen haben.
01:12:03
Kann man wunderschön, sieht ähnlich aus wie SQL formulieren. Es sind ein paar kleine Sachen drin, die ein bisschen komplizierter ausschauen. Also ich gucke hier nur auf die englischen Labels, und Setten war auch noch arabischer, und ich weiß nicht was mit drin. Und ordne das Ganze dann auch noch absteigend, sodass quasi der mit den meisten Toren vorne dran ist.
01:12:21
Und was ich dann als Ergebnis bekomme, können Sie zwar nicht mehr lesen, ist aber eine sehr schöne Tabelle. Und da steht jemand oben drin. Oehler fuhr Stephansson mit 1511 Toren. Und das ist auf der einen Seite das Schöne, auf der anderen Seite auch die Krux mit der DBpedia. Das ist nämlich die Datenqualität. Wenn Sie sich das näher angucken, was da drin steht, das ist jetzt eigentlich ein Handballspieler.
01:12:43
Und wir hatten nach Soccerplayern gefragt. Das interessante ist, natürlich gibt es Handballspieler, die nebenher auch Fußball spielen, aber nicht gleichzeitig auch in der Fußballnationalmannschaft sind, sondern vielleicht nur so Fußball spielen halt. Das heißt, ich hätte in der Abfrage auch noch sagen müssen,
01:13:01
nicht nur welcher Fußballspieler, sondern welcher Fußballspieler hat in der Fußballnationalmannschaft während eines Spiels der Nationalmannschaft tatsächlich auch ein Tor geschossen. Also man muss da ganz genau gucken, was man irgendwie hier zusammenfasst. Und außerdem ist es so, dass sich die Sachen gegenseitig nicht notwendigerweise ausschließen. Also Handballspieler kann gleichzeitig auch Fußballspieler sein und ähnliche Dinge.
01:13:21
Also es steht eine Menge Schrott drin. Die Datenqualität ist manchmal sehr zweifelhaft. Und wir werden uns das... Bitte? Echt? Unglaublich. Wie kommen Sie jetzt auf Nick Armstrong?
01:13:40
Prima, der kommt nämlich auch noch bei mir. Okay, also Datenqualität werden wir sehen, ist ein bisschen ein Problem. Gut, ganz zum Schluss. Schauen wir uns noch an, was wir dann mit dem Ganzen, wenn wir tatsächlich wissen, explizit machen und damit arbeiten können, machen können. Das erste, linked data, hatte ich heute auch schon mal genannt. Wer von Ihnen kannte schon den Begriff linked data oder hatte damit schon mal irgendwas zu tun?
01:14:04
Wenigstens auch schon ein paar. Also zentraler Dreh- und Angelpunkt in linked open data oder linked data. Das ist die DBP, von der ich gerade schon gesprochen habe. An der gliedern sich sehr, sehr viele öffentlich verfügbare Datensätze aus strukturierten Daten an. Die kommen aus allen möglichen Bereichen. Wir werden uns diese linked data cloud dann auch noch mal ein bisschen genauer anschauen,
01:14:21
was denn da für Datensätze alles drin sind, was man da an Wissen alles gebrauchen kann. Insgesamt sind die Zählungstammt von letztem Jahr. Und jetzt wird in den nächsten Monaten, ich schätze Anfang November, die neue Zählung veröffentlicht. Letztes Jahr waren es noch 31 Milliarden Fakten, also doch schon eine ganze Menge. Und 500 Millionen Links unter den Datensätzen zwischendrin. Also da steckt eine ganze Menge Wissen drin.
01:14:41
Und das Schöne ist, das Ganze ist codiert in RDF. Das heißt, das ist ein einheitliches Format. Ich brauche keine speziellen APIs, um darauf tatsächlich zugreifen zu können. Ich kann das mit HTTP, ganz einfach mit einem HTTP-Request abfragen und kann darauf sehr, sehr einfach Mashups aufbauen. Bekanntes ist Mashup, das darauf aufbaut. Und auch eines der ältesten, sieht man jetzt nicht mehr so gut, das ist die BBC Music Seite.
01:15:04
Also wenn Sie zu BBC gehen und dann dort den Musikbereich anwählen, dort finden Sie einen Blick in das laufende Radioprogramm der BBC. Und dort wird normalerweise aus Linked Data, das heißt aus der DBpedia und noch aus anderen Diensten wie beispielsweise Musicbrains oder Discogs. Das sind alles Datensätze, die sind ziemlich aktuell und auch da drin in der Linked Data Cloud.
01:15:24
Da werden die Informationen zum aktuellen Programm rausgeholt und sind auch quasi ständig aktuell, ohne dass jemand da Webseiten crawlen und Informationen rausholen muss, sondern man kann wirklich auf diese Daten über eine einheitliche Schnittstelle zugreifen. Die werden auch gepflegt, sind wie in der Wikipedia immer schön aktuell. Und ich habe wenig Aufwand, quasi hier Informationen zur Verfügung zu stellen.
01:15:43
Also das Besondere an solchen Mashup-Webseiten sind, dass man kein Screenscraping machen muss, um an die Informationen zu kommen, die dahinterstecken. Das ist dafür keine spezialisierten APIs, der Informationsangebote benötigt, die abgefragt werden sollen, sondern dass man das Ganze quasi via Linked Open Data und HTTP Request
01:16:01
ohne weitere manuelle Interaktionen sehr, sehr schön abfragen kann. Ein weiterer Vorteil, den ich habe, wenn ich mit semantischen Technologien arbeite, der erschließt sich dann später bei Suchmaschinen, nämlich beispielsweise hier, wenn wir uns Dokumenten-Retrieve angucken. Wir hatten ja gesagt, Sprache ist mehrdeutig, selbst wenn ich jetzt hier so einen Query-String habe.
01:16:21
Jaguar auf 2000 ist nicht klar, was gemeint ist. Als erstes muss ich mal den Jaguar irgendwie interpretieren. Das kann die Katze sein, das kann das Auto sein. Das kann, manche erinnern sich noch, das Betriebssystem sein. Osten Punkt 2, glaube ich, hieß Jaguar. Und es gibt auch noch viele andere Bedeutungen von Jaguar. Ich muss das erst mal herausfinden. Wenn ich das irgendwie herausgefunden habe, okay, ich möchte jetzt in Richtung Auto weitergucken,
01:16:44
muss ich den Rest irgendwie interpretieren und muss herausfinden, ja, was bedeutet jetzt das 2000? Bedeutet das eventuell bei mir Baujahr? Bedeutet das, ich möchte einen mit 2000 cpq-Raum oder mit 2000 PS Leistung haben oder irgendwie so? Das muss ich erst mal irgendwie herausfinden. Das heißt, ist eine schwierige Geschichte, sowas dann zu interpretieren.
01:17:03
Das heißt, Suchmaschinen sind im Dokumenten-Retrieve, haben immer das Problem, ich muss den Query-String korrekt interpretieren. Dazu brauche ich eigentlich Kontextwissen, muss ein bisschen was über den Benutzer wissen. Ich muss Entitäten korrekt zuweisen können. Es gibt jetzt hier ein schönes Beispiel bei Google. Haben Sie vielleicht schon gesehen den Google Knowledge Graph?
01:17:20
Da wird versucht, zu Entitäten, die im Suchstring entdeckt zu werden, Informationen, die aus Freebase stammen, quasi nebendran noch anzuzeigen. Das können wir uns in der Übung dann noch mal genauer angucken. Es muss also automatisch disambiguiert werden. Und dann ist natürlich die Frage, ja, eine Suchmaschine, die mich irgendwie versteht, kann sie ja nicht von Anfang an, wenn sie am Anfang zu wenig Kontextinformation hat,
01:17:40
muss sie ja ständig nachfragen. Das nervt mich irgendwann. Also das heißt, da ist die Usability auch sehr schnell zum Teufel. Und ich muss mir irgendwas überlegen, das in irgendeiner Art und Weise vernünftig darzustellen. Eine weitere Variante der Suchmaschinen sind nicht die Suchmaschinen, die Dokumenten-Retrieval machen, sondern sogenanntes Fact-Retrieval. Wolfram Alpha kennen vielleicht manche von Ihnen.
01:18:01
Wer hat noch nie was von Wolfram Alpha gehört? Sie sehen, es gibt nicht so viele, die noch nie was davon gehört haben. Da geht es eben darum, man stellt Fragen und bekommt dann irgendwann Antworten. Das geht heutzutage auch schon ganz gut. Also man kann sich das so vorstellen, man ist mit dem Auto unterwegs und möchte wissen, wo finde ich denn jetzt die nächste für mich günstigste Tankstelle? Also ich möchte auch günstig tanken und ich möchte mit dem, was ich im Tank habe,
01:18:23
zur nächsten günstigsten Tankstelle auch noch am besten hinkommen. Dann kriege ich dann irgendwie die Antwort, ich muss jetzt hier von mir aus nach Hohenfelden. Kennt keiner, weil die Folie noch aus Jena stammt. Und das wird dann angezeigt, was aktuell das Benzin dort kostet. Es wird eine Route ausgerechnet für die spritzsparnste Straße, die mich dann dorthin bringt und eventuell wird dann auch noch im Auto eingegriffen
01:18:42
und gesagt, ich darf das Gaspedal nur noch halb durchtreten, weil sonst schaffe ich es nicht bis zur Tankstelle. Also solche Sachen kann man sich da vorstellen, die mit Hilfe semantischer Technologien möglich werden. Ein weiterer Forschungsschwerpunkt, der auch bei uns in der Gruppe im Mittelpunkt steht, ist die sogenannte explorative Suche.
01:19:01
Da geht es darum, dass Sie nicht jetzt, wie Sie es heutzutage eigentlich machen, Dokumente oder Ergebnisse suchen, bei denen Sie eigentlich schon ganz genau wissen, was Sie finden wollen. Das heißt, das Suchergebnis liegt irgendwie vorher in Ihrem Kopf schon irgendwie klar, was Sie finden wollen. Das heißt, Sie müssen nur noch entsprechend spezifizieren und kriegen dann das gewünschte Ergebnis. Aber wenn Sie einfach nur stöbern wollen, wenn Sie mal wissen wollen,
01:19:21
na, was gibt es denn alles in dem und dem Bereich, dann haben Sie mit heutigen Suchmaschinen ein großes Problem, weil Sie können gar nicht alle Ergebnisse, die Google Ihnen liefert, diese Millionenergebnisse durchscrollen. Irgendwann, wenn Sie da durchblättern, ist nach 100 Seiten Schluss und keiner hat auch den Nerv, das irgendwie zu machen. Und Sie sehen auch nicht, wie die Ergebnisse irgendwie miteinander zusammenhängen.
01:19:40
Und wenn Sie quasi Informationen haben, wie einzelne Sachen, hier haben wir jetzt Neil Armstrong vielleicht erkannt, wie hängt der jetzt zusammen quasi mit den anderen Crew-Membern von Apollo 11 und quasi kann man hier finden, wenn man in die DB-Pedia guckt und genauso kann man hier eine Querverbindung finden von Apollo 11 zu Apollo 13. Und wir alle wissen, dass bei Apollo 13, da wäre ja fast was passiert,
01:20:01
da ist man irgendwie dann bei diesen Space-Exzidenz-Inzidenz und da kommt man dann sehr leicht auch zum Challenger-Desaster, also als das Space-Shuttle hier in die Luft geflogen ist. Und quasi solche Verbindungen zu knüpfen auf inhaltlicher Basis, das ist auch eine Form der explorativen Suche und da kann man eben den Nutzer dann auch unterstützen,
01:20:20
sehr, sehr große Archive nach eigenem oder gemäß den eigenen Interessen zu durchstöbern. Und dabei helfen eben semantische Technologien. Machen wir ganz am Schluss noch zwei Vergleiche zwischen Web und Semantikweb, damit es noch mal ein bisschen klarer wird, Technologie heute, Technologie morgen, wie man sich das vorstellen muss. Heutzutage haben wir, wenn wir Informationen suchen, den eigenen Dienst,
01:20:43
nämlich Google, und wir haben, wenn wir Informationen darstellen wollen, den eigenen Dienst, also den Browser. Und da geht das immer hin und her zwischen diesem Presentation Service und dem Retrieval Service, wie wir Informationen suchen und Informationen darstellen. Im Semantikweb wird das Ganze ein bisschen anders aussehen, wenn man das quasi zu Ende denkt, hätte dann jeder Nutzer für sich bezogen einen persönlichen Assistenten,
01:21:02
das ist nichts anderes als ein intelligentes Programm, das in der Lage ist, auf eben jetzt hier intelligente Infrastrukturdienste zurückzugreifen. Also ich kann mir Daten zusammensuchen, ich kann mir Daten, die ich zusammengesucht habe, nach bestimmten Kriterien aggregieren, berechnen, und quasi ich kann mir virtuell aus den vorliegenden WWW-Dokumenten
01:21:20
entsprechend meinen persönlichen Informationsbedürfnissen Informationen rausziehen und virtuell zusammenstellen lassen. Das ist also quasi so diese Vorstellung, wie man im Semantikweb, im Gegensatz zu heute, Informationen sich auf automatisierte Art und Weise zusammenstellen lässt. Ganz zum Schluss, ja, die drei Generationen von Webseiten,
01:21:42
während man früher einfach nur statische Seiten hatte, deren Erscheinungsbild bestimmt worden ist durch HTML und CNS und heutzutage eben interaktive und dynamische Webseiten hat, interaktiv deshalb, weil wir jetzt über JavaScript oder auch manche noch über Java Applets tatsächlich jetzt Interaktion zulassen, beziehungsweise wir jetzt hier dynamische Webseiten aufbauen können aus Templates mit Hilfe von Datenbanken und Content-Management-Systemen,
01:22:04
wird das Ganze in der nächstfolgenden, in der dritten Generation zu sogenannten virtuellen Webseiten gehen, die mithilfe von Bots quasi Informationen zusammensuchen, mithilfe von diesen persönlichen Informationsassistenten aggregieren und so wie wir sie eben gerade haben wollen zusammenbauen und auch noch adaptiv in diesem Sinne reagieren,
01:22:21
in dem eben hier tatsächlich echtes Planen stattfindet, wie ich jetzt Informationen aggregiere, wo ich sie herhole, wie ich sie layoute und wie ich sie dann am Ende darstelle. Zusammenspielen tun dann in diesem Semantic Web eine ganze Reihe von Unterdisziplinen der Informatik, die künstliche Intelligenz gehört genauso dazu, wie die Computerlinguistik, die Kryptographie,
01:22:41
Datenbanken gehören dazu, theoretische Informatik gehört dazu, Logik, also haben wir vorhin gehört, gehört dazu, Rechnerarchitekturen gehören dazu, Softwareengineering gehört dazu, Systemtheorie und natürlich am Ende noch Computernetzwerke. Sie sehen, wir sind irgendwie sehr sehr breit mit Semantic Web Technologien hier aufgestellt und haben es damit auch tatsächlich jetzt geschafft,
01:23:03
ein paar Minuten zu spät angefangen, gehören auch ein paar Minuten zu spät auf, damit haben wir es heute. Die Take-Home-Message ist eigentlich die, merken Sie sich, im Web heute sind Informationen implizit, nicht explizit gegeben, wir versuchen sie hier mit Hilfe von Semantic Web Technologien explizit zu machen, damit wir sie automatisiert verarbeiten können
01:23:21
und versuchen damit dann intelligentere Anwendungen letztendlich zu bauen. In der nächsten Stunde geht es weiter, wir gucken uns an, wie spreche ich die Dinge an, URIs kennen Sie ja alle schon, aber nochmal dieses Problem, wie verstehe ich, wenn ich mit einem Stellvertreter arbeite, dass ich trotzdem quasi, wobei ich den Stellvertreter meine,
01:23:40
eigentlich das Ding, das den Stellvertreter bezeichnet, dann quasi damit anspreche, ein bisschen kompliziert. XML und XML Schema morgen dann, und dann geht es auch gleich noch weiter nächste Woche mit dem Resource Description Framework. Wir haben es geschafft, vielen Dank.
Empfehlungen
Serie mit 4 Medien
Serie mit 13 Medien