Webcrawler

Zitieren

Free and Open Source Software Conference (FrOSCon) e.V.

Liß, Florian

Formale Metadaten

Titel

Webcrawler

Serientitel

FrOSCon 2015

Teil

Anzahl der Teile

Autor

Liß, Florian

Lizenz

CC-Namensnennung 3.0 Unported:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.

Identifikatoren

10.5446/19572 (DOI)

Herausgeber

Free and Open Source Software Conference (FrOSCon) e.V.

Erscheinungsjahr

2015

Sprache

Deutsch

Inhaltliche Metadaten

Fachgebiet

Informatik

Genre

Konferenz/Talk

Abstract

Webcrawler Bau dir deine eigene WWW-API Die Informationsvielfalt im Internet ist nahezu grenzenlos: fast alles ist tagesaktuell und ständig verfügbar. Leider gibt es nur für einen kleinen Teil dieser Daten öffentlich verfügbare APIs. Ein Webcrawler kann diese Lücke schießen. Er liest öffentlich verfügbare Informationen, verarbeitet sie und wandelt sie in ein maschinenlesbares Format um. Damit werden viele praxisnahe Softwareanwendungen erst möglich. Dieser Vortrag richtet sich an alle, die sich für den Aufbau und Funktionsweise eines solchen Webcrawler interessieren. Die Basis-Funktionen eines Webcrawler sind schnell erklärt und einfach implementiert: Man lädt den Inhalt einer Seite, extrahiert die benötigten Daten und verwendet sie nach Belieben. Aber es gibt noch einige Details, auf die man Rücksicht nehmen sollte. Ein schlecht gebauter Bot verärgert schnell die Server-Administratoren und man wird als böswilliger Angreifer beschimpft. Der Vortrag geht auf wichtige Details beim Bau eines Webcrawler ein und zeigt Herangehenweisen, um mit der riesigen Datenflut fertig zu werden, die, wenn man es eben richtig macht, aus dem Netz frei extrahiert werden kann. Robots.txt, Parallelisierung, cURL, HTML-Parser, Regular-Expression, PhantomJS… sind nur ein paar Schlüsselwörter auf die der Vortrag eingeht. Aber vor allem können die Zuhörer von den großen Erfahrungen eines lokalen Unternehmens profitieren, welches es zum Marktführer in ganz Deutschland geschafft hat. Der Vortrag enthält einige Live-Demonstrationen, in denen gezeigt wird, wie leicht das Internet als freie Informationsquelle genutzt werden kann und das man nicht immer auf kostenpflichtige APIs angewiesen ist, um Daten strukturiert zu erhalten. Meistens besteht nicht einmal die Möglichkeit, Daten in einem maschinenlesbarem Format abzurufen. In diesen Fällen schließt ein Webcrawler die Lücke Kurz gesagt: Dieser Vortrag richtet sich an diejenigen Zuhörer, die sich für eine sichere, effiziente und vorallem freie Möglichkeit interessieren, das Internet als Datenbasis zu nutzen. The crawling is strong in you Florian Liß