We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Formale Metadaten

Titel
Webcrawler
Serientitel
Teil
26
Anzahl der Teile
79
Autor
Lizenz
CC-Namensnennung 3.0 Unported:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache

Inhaltliche Metadaten

Fachgebiet
Genre
Abstract
Webcrawler Bau dir deine eigene WWW-API Die Informationsvielfalt im Internet ist nahezu grenzenlos: fast alles ist tagesaktuell und ständig verfügbar. Leider gibt es nur für einen kleinen Teil dieser Daten öffentlich verfügbare APIs. Ein Webcrawler kann diese Lücke schießen. Er liest öffentlich verfügbare Informationen, verarbeitet sie und wandelt sie in ein maschinenlesbares Format um. Damit werden viele praxisnahe Softwareanwendungen erst möglich. Dieser Vortrag richtet sich an alle, die sich für den Aufbau und Funktionsweise eines solchen Webcrawler interessieren. Die Basis-Funktionen eines Webcrawler sind schnell erklärt und einfach implementiert: Man lädt den Inhalt einer Seite, extrahiert die benötigten Daten und verwendet sie nach Belieben. Aber es gibt noch einige Details, auf die man Rücksicht nehmen sollte. Ein schlecht gebauter Bot verärgert schnell die Server-Administratoren und man wird als böswilliger Angreifer beschimpft. Der Vortrag geht auf wichtige Details beim Bau eines Webcrawler ein und zeigt Herangehenweisen, um mit der riesigen Datenflut fertig zu werden, die, wenn man es eben richtig macht, aus dem Netz frei extrahiert werden kann. Robots.txt, Parallelisierung, cURL, HTML-Parser, Regular-Expression, PhantomJS… sind nur ein paar Schlüsselwörter auf die der Vortrag eingeht. Aber vor allem können die Zuhörer von den großen Erfahrungen eines lokalen Unternehmens profitieren, welches es zum Marktführer in ganz Deutschland geschafft hat. Der Vortrag enthält einige Live-Demonstrationen, in denen gezeigt wird, wie leicht das Internet als freie Informationsquelle genutzt werden kann und das man nicht immer auf kostenpflichtige APIs angewiesen ist, um Daten strukturiert zu erhalten. Meistens besteht nicht einmal die Möglichkeit, Daten in einem maschinenlesbarem Format abzurufen. In diesen Fällen schließt ein Webcrawler die Lücke Kurz gesagt: Dieser Vortrag richtet sich an diejenigen Zuhörer, die sich für eine sichere, effiziente und vorallem freie Möglichkeit interessieren, das Internet als Datenbasis zu nutzen. The crawling is strong in you Florian Liß