Ist die Webseite suchmaschinenoptimiert? - TIB AV-Portal

Ist die Webseite suchmaschinenoptimiert?

00:00

6

Zugehöriges Material

Hochschulverband Informationswissenschaft

Universität Regensburg

Sünkler, Sebastian Lewandowski, Dirk

Formale Metadaten

Titel

Ist die Webseite suchmaschinenoptimiert?

Untertitel

Vorstellung eines Online-Tools zur Analyse der Wahrscheinlichkeit der Suchmaschinenoptimierung auf einer Webseite

Serientitel

16th International Symposium for Information Science

Anzahl der Teile

14

Autor

Sünkler, Sebastian

Lewandowski, Dirk

Lizenz

CC-Namensnennung 3.0 Deutschland:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.

Identifikatoren

10.5446/52965 (DOI)

Herausgeber

Hochschulverband Informationswissenschaft

Universität Regensburg

Erscheinungsjahr

Sprache

Produzent

Universität Regensburg

Lehrstuhl für Medieninformatik

Produktionsjahr

2021

Produktionsort

Regensburg

Inhaltliche Metadaten

Fachgebiet

Information und Dokumentation

Genre

Abstract

Das SEO Tool ist eine Webanwendung, die die Wahrscheinlichkeit von Suchmaschinenoptimierung (SEO) auf einer Webseite ermittelt. Für die Berechnung der Wahrscheinlichkeit werden insgesamt 20 Merkmale halb automatisch erhoben und in drei Prozessen ausgewertet. Dafür analysiert das Tool zuerst den Quelltext der URL auf Informationen über die Verwendung von SEO-Plugins und Analytics Tools. Zweitens bestimmt es die Kategorie der gegebenen URL anhand manuell klassifizierter Websites, und schließlich berechnet es verschiedene technische und inhaltliche SEO-Indikatoren. Die Ergebnisse aus diesen Prozessen bilden anschließend die Basis für die Einordnung der URL anhand eines regelbasierten Klassifikators. Die Demo des Tools ist unter 5.189.155.20:5000 verfügbar.

16th International Symposium for Information Science9 / 14

1

15:50

Open practices of early career researchers

2

16:01

Towards the identification of information needs in conversational search dialogues

3

15:02

Information Behaviour von unbegleiteten, minderjährigen Geflüchteten unter Berücksichtigung der Rolle und Nutzung von Smartphones

4

21:07

Same same, but different? On the Relation of Information Science and the Digital Humanities.

5

14:54

A Living Lab Architecture for Reproducible Shared Task Experimentation

6

15:12

Information Organization and Access in Digital Humanities

7

20:05

SentText: A Tool for Lexicon-Based Sentiment Analysis in Digital Humanities

8

21:44

Information Behavior towards False Information and “Fake News” on Facebook

9

14:21

Ist die Webseite suchmaschinenoptimiert?

10

19:01

Den Einfluss der Suchmaschinenoptimierung messbar machen

11

14:29

Forschungsdatenmangement in Brandenburg (FDM-BB)

12

15:05

Der Einfluss des Verständnisses von Suchmaschinenwerbung auf das Rechercheverhalten am PC und am mobilen Endgerät: eine Nutzerstudie

13

20:59

(Un)bekannte Akteure auf der Suchergebnisseite?

14

22:47

Does the General Public Share Research on Twitter?

Automatisches Abspielen

Sprache

Text

Bild

00:00

Computeranimation

00:23

Computeranimation

00:56

Computeranimation

02:41

Computeranimation

09:09

Computeranimation

11:11

Computeranimation

12:55

Computeranimation

14:09

Computeranimation

Transkript: Deutsch(automatisch erzeugt)

00:02

Schönen guten Tag, mein Name ist Sebastian Sünkler und ich freue mich, dass ich hier auf der EASY Ergebnisse aus einem Forschungsprojekt vorstellen darf, in dem ich momentan arbeite. Das Forschungsprojekt heißt SEO-Effekt und wird von Dirk Lewandowski geleitet und ich möchte Ihnen gerne ein Online-Tool vorstellen, mit dem man die Wahrscheinlichkeit von Suchenmaschinenoptimierung auf einer Webseite erfassen kann.

00:24

Hier einmal die Übersicht zu dem Vortrag. Ich möchte aber kurz was zur Relevanz von Suchenmaschinenoptimierung sagen. Dann stelle ich Ihnen den Ansatz vor, den wir verfolgen, um SEO auf Webseiten zu identifizieren. Anschließend beschreibe ich das Online-Tool, das wir nutzen,

00:41

um diese Ansätze zu überprüfen. Es gibt eine kurze Live-Demonstration, ein Abschließungsfazit und eine Zusammenfassung zum weiteren Vorgehen, da das, was ich hier zeige, nur ein Zwischenstand in unserem Forschungsprojekt ist. Und dann gibt es eine Übersicht zu den genutzten Quellen in der Präsentation. Relevanz von Suchenmaschinen für Inhalteanbieter.

01:02

Suchenmaschinen sind der wichtigste Zugang zu Inhalten im Web und deswegen brauchen Inhaltsanbieter Top-Positionen in den Suchenmaschinen, um Traffic zu generieren, um eine gewisse Relevanz zu bekommen. Und dabei besteht eine gewisse Abhängigkeit von den Suchenmaschinen. Das ist so von Google, weil Google der klare Marktführer ist bei Suchenmaschinen. Es gibt praktisch keine Konkurrenz.

01:22

Was man in den Zahlen hier auch ganz gut sehen kann. Google ist ein sehr guter Marktführer. Klarer Marktführer in den USA und in Europa. Was machen Inhaltsanbieter, um gute Positionen in Suchenmaschinen zu bekommen? Die können Suchenmaschinen-Marketing betreiben. Und das eine ist das sogenannte SEA, Search Engine Advertisement. Da werden Textanzeigen gebucht, um in den Ergebnislisten aufzutauchen.

01:42

Die andere Möglichkeit für Suchenmaschinen-Marketing ist halt Suchenmaschinen-Optimierung. Und das beschreibt alle Maßnahmen, die man einsetzen kann, um eine bessere Platzierung im Ranking zu erhalten. Und die Frage, die sich aber daraus ergibt, wenn man sieht, Inhaltsanbieter sind stark abhängig von guten Positionen.

02:01

Das heißt, sie müssen Suchenmaschinen-Optimierung nutzen für gute Positionen. Da ist halt die Frage, wenn so viel Suchenmaschinen-Optimierung betrieben wird, was für einen Einfluss hat das eigentlich auf die Ergebnisse in den Suchenmaschinen? Landen vielleicht mehr nicht-relevante, qualitativ schlechte Inhalte weiter vorne, weil sie durchoptimiert sind?

02:21

Welchen Einfluss hat das auf die Diversität, sind einfach nur noch optimierte Dokumente zu finden und so weiter und so fort? Das ist eine spannende Frage, die wir untersuchen. Dabei gibt es aber die zweite Frage, naja, wie kann man die Wahrscheinlichkeit von Suchenmaschinen-Optimierung in Dokumenten überhaupt feststellen? Weil das ist ja die Grundlage, um zu überprüfen, welchen Effekt eigentlich SEA hat.

02:42

Und ich möchte einmal zeigen, wie wir jetzt hier vorgehen, um die SEA-Wahrscheinlichkeit zu bewerten. Das werde ich gleich als ein Detail erklären. Ja, eine kurze Übersicht dazu. Grundsätzlich speichern wir die Suchergebnisse, wir speichern den HTML-Qualtext und die Metadaten dazu. Dann identifizieren wir Indikatoren, die auf Suchenmaschinen-Optimierung hinweisen.

03:03

Und wir nutzen dann diese Indikatoren, um die SEA-Wahrscheinlichkeit über einen regelbasierten Ansatz festzulegen. Also wir ermitteln, ob in einem Dokument Suchenmaschinen-Optimierung versucht wird oder nicht. Wenn wir uns das jetzt einzeln angucken, hatte ich ja eben gesagt, wir speichern halt verschiedene Daten zu den URLs aus den Suchergebnissen.

03:26

Wir speichern Metadaten. Das eine ist die Hauptdomain, hier als Beispiel die Easy-Seite genannt, mit dem Programm. Die Hauptdomain ist dann Easy2021.net. Das machen wir aus verschiedenen Gründen. Ein Grund ist, dass wir dann einfacher später auch zuordnen können,

03:41

wie viele Unterseiten wir eigentlich zu einer Domain besitzen und ausgewertet haben. Dann speichern wir die robots.txt, die ist ja dafür zuständig, dass man Suchenmaschinen-Crawler in einer Form konfigurieren kann. Zum Beispiel steht in der robots.txt sowas drin, wie bestimmte Verzeichnisse auf dem Server bitte nicht in der Suchenmaschine indizieren usw.

04:01

Dann ermitteln wir die Ladegeschwindigkeit der Seite. Dafür nutzen wir den Selenium WebDriver. Den nutzen wir sowieso grundsätzlich, um die Inhalte aus dem Web zu erfassen. Der Vorteil am Selenium WebDriver ist, dass es eine Test-Software ist für Web-Angebote und für Web-Browser. Man kann damit praktisch echte Nutzer simulieren. Man kann simulieren, wo sie hinklicken usw.

04:22

Der Vorteil ist, dass man damit in der Lage ist, weil es APIs gibt zu den gängigen Suchenmaschinen, auf wirklich dynamische Inhalte zu erfassen. Die brauchen wir für unsere Auswertung, um die SEO-Wahrscheinlichkeit zu ermitteln. Genau, wir scrapen die Seiten, wir speichern den HTML-Quelltext in einer Datenbank.

04:40

Wir extrahieren dabei auch die internen und externen Links aus dem Quelltext und speichern auch HTML-Kommentare, um diese weiter zu verarbeiten. Was wir auch machen, ist, dass wir diesen Quelltext daraufhin untersuchen, ob wir SEO-Plugins oder Analytics-Tools finden können. Dafür haben wir Listen vorbereitet. Dort stehen dann eine Anzahl von SEO-Plugins und Analytics-Tools drin.

05:02

Alle haben ein eigenes Suchmuster. Dieses Suchmuster wenden wir dann auf den gespeicherten Quelltext an. Man sieht das hier an dem Beispiel mit dem HTML-Code. Dort sieht man, dass das Yoast SEO-Plugin als HTML-Kommentar hinterlegt ist. Wir suchen nach dem Muster Yoast SEO und wenn wir das gefunden haben, wenn das mit diesem Kommentar matcht, wenn der im Quelltext vorkommt,

05:23

dann ordnen wir der URL zu. Aha, da ist ein SEO-Plugin gefunden worden. Was wir auch machen, ist, dass wir die URLs kategorisieren. Wir haben Listen erstellt mit Domains, mit Hauptdomains von bestimmten Webseiten, die wir in verschiedene Kategorien zuordnen können. Wir haben eine Liste mit Agenturkunden von SEO-Agenturen. Dafür

05:44

haben wir geschaut in die Kundenlisten von verschiedenen Agenturen, um herauszufinden, wer hat mit denen zusammengearbeitet, wer hat Dienste für Suchmaschinenoptimierung in Anspruch genommen. Und das ist dann ja ein klarer Hinweis darauf, wenn man Kunde von einer SEO-Agentur war, dass man auch Suchmaschinenoptimierung nutzt.

06:02

Dann haben wir noch andere Kategorien, Nachrichtenangebote. Das haben wir so gemacht, weil auch unsere SEO-Experten, mit denen wir gesprochen haben, gesagt haben, naja, Nachrichtenangebote sind immer Suchmaschinenoptimiert. Was ja auch daran liegt, dass gerade so der Konkurrenzkampf zwischen den informationsorientierten Angeboten sehr hoch ist. Also kann man davon ausgehen, wenn es ein Nachrichtenangebot ist, spiegel.de, focus.de, was auch immer,

06:23

dass sie auch Suchmaschinenoptimierung einsetzen. Wir gucken halt auch auf Webseiten, ob die Werbung nutzen. Wenn Werbung geschaltet wird, hohes kommerzielles Interesse, auch eine höhere Wahrscheinlichkeit für Suchmaschinenoptimierung. Und naja, wir haben auch eine Liste mit definitiv nicht optimierten Seiten. Dort steht bisher aber nur eine Domain drin, Wikipedia, weil das der einzige Webangebot ist,

06:42

von dem wir wissen, dass dort gar keine Suchmaschinenoptimierung eingesetzt wird. Was wir dann ja auch machen, wenn wir den Quelltext haben, wir extrahieren und identifizieren technische Indikatoren. Die haben wir uns jetzt nicht ausgedacht, sondern die haben wir anhand von Fachliteratur und auch aus den Befragungen mit den SEO-Experten zusammengestellt.

07:03

Das sind dann so gängigste Indikatoren, die darauf hinweisen können, dass Suchmaschinenoptimierung stattfindet oder halt auch nicht stattfindet, wenn die nicht gesetzt sind. Und was wir hier sehen, ist ein kleiner Auszug aus den Indikatoren, die wir erfassen. Die Indikatoren sind momentan 45. Für unsere Klassifikation nutzen wir allerdings erst mal nur 20, weil wir über Machine Learning usw.

07:20

noch validieren müssen, wie gut auch die anderen Indikatoren funktionieren. Aber hier sehen Sie so ein paar Beispiele, sowas wie ob ein Description Tag gesetzt oder ein Titel Tag gesetzt ist oder ob eine Sitemap vorhanden ist oder HTTPS verwendet wird. Das sind so einige Indikatoren, die wir erfassen. Wenn wir diese Indikatoren haben, dann können wir über unsere regelbasierte Klassifikation

07:42

auch eine Aussage darüber treffen, ob eine bestimmte Wahrscheinlichkeit gegeben ist, dass Suchmaschinenoptimierung auf der Webseite stattfindet. Und hier sehen Sie die vier Klassen, die wir gebildet haben. Voll höchstwahrscheinlich optimiert bis höchstwahrscheinlich nicht optimiert. Wobei man sagen muss, das ist ja klar auch schon zu sehen, die Abgrenzung zwischen den Klassen ist relativ schwierig.

08:02

Also wir können jetzt keinen Score daraus bilden im Sinne von wegen, alle die höchstwahrscheinlich optimiert sind 100% und alle, die wahrscheinlich nicht optimiert sind, sind vielleicht zu 30% optimiert. Das wissen wir noch nicht. Da arbeiten wir gerade was aus. Aber was wir halt schon können, wir können halt trotzdem im ersten Schritt schon eine grobe Einordnung vornehmen.

08:21

Und ich will das gar nicht ganz im Detail jetzt vorstellen, aber zum Beispiel bei der höchstwahrscheinlich optimierten Klasse, da fallen alle Dokumente rein, die ein SEO-Plugin einsetzen oder Agenturkunde sind. Was ja klar ist, das ergibt sich einfach schon da aus der Idee, wer ein SEO-Plugin nutzt, der macht auch SEO. Wer Agenturkunde einer SEO-Agentur ist, der macht auch SEO. Also das ist eigentlich schon klar. Bei den höchstwahrscheinlich nicht optimierten haben wir nur bisher Wikipedia-Ergebnisse.

08:43

Wenn wir als Suchergebnis Wikipedia identifiziert, dann ist das nicht optimiert. Das wird auch so eingestuft. Und bei wahrscheinlich nicht optimiert haben wir eher auf die Basics geguckt, dass wir sagen, das sind so Mindestmaß, wenn das nicht erfüllt ist, wenn man das nicht finden kann in dem Dokument, dann ist da gar keine Suchmaschinenoptimierung oder wahrscheinlich keine.

09:00

Und dazu zählt halt einmal die Seiten-Description oder der Titel. Und bei den wahrscheinlich nicht optimierten sehen Sie, da haben wir relativ viele technische Indikatoren drin. Dann erkläre ich kurz, wie wir das umgesetzt haben, diese Methodik in dem Tool. Bzw. das habe ich auch eben schon ein bisschen erzählt, aber hier sehen Sie einmal einen Ausschnitt aus der Softwarearchitektur. Ich habe die Datenschicht jetzt nicht dargestellt,

09:21

weil die Datenbank für das Tool keine Rolle spielt, weil das in Echtzeit ausgewertet wird. Sie sehen aber einmal, wir haben eine Präsentationsschicht, also das Frontend der Anwendung. Das ist im Flask geschrieben, ein einfaches Framework für Web-Anwendungen in Python. Am Ende einfach nur ein Interface, wo man URLs eingeben kann und Ergebnisse zurückbekommt, die man sich herunterladen kann.

09:42

Und dann auf der Applikationsschicht, da läuft halt das Scraping der Seiten, also das Speichern des Quelltextes und der Metadaten und diese ganze Identifikation von SEO-Indikatoren ab, die ich eben genannt habe. So sieht die Software momentan aus. Das sind alles Module, die man auch untereinander austauschen kann

10:01

und auch erweitern kann. Das ist ja auch die Idee. Deswegen haben wir uns auch für diese Architektur entschieden, weil vielleicht wollen wir den Suchmaschinen-Scraper später ersetzen und gar nicht mehr Selenium benutzen. Dann benutzen wir irgendetwas anderes. Gut, der Ablaufen der Software ist relativ simpel. Man kann die Software aufrufen. Hier steht jetzt so eine kryptische URL, weil das noch auf dem Testserver installiert ist. Dort wird eine URL eingegeben, die getestet werden soll.

10:24

Und dann werden diese ganzen Schritte durchlaufen, die ich eben auch vorgestellt habe. Es werden die Metadaten zu der URL festgestellt, also Hauptdomain, Ladegeschwindigkeit und so weiter. Der Quelltext wird gescrapt. Wir scrapen bei dem Tool auch zwei weitere Unterseiten, um zu prüfen, ob identische Titel-Title-Tags auf Unterseiten zu finden sind,

10:41

weil das auch ein klarer Indikator für Nicht-CEO ist, wenn man sich da keine Mühe macht und gar keinen Titel-Tag selbst vergibt oder darauf achtet, dass die sich unterscheiden. Wir ordnen die URL zu den Kategorien zu, die ich vorhin genannt habe. Agenturkunde, Nachrichtenangebote oder sowas. Wir nutzen verschiedene Algorithmen und technische Indikatoren aus dem Quelltext zu identifizieren.

11:02

Wir führen die regelbasierte Klassifikation durch und dann wird im Hintergrund eine CSV-Datei generiert, als Report, den man sich auch herunterladen kann, wenn man ihn weiterverarbeiten möchte. So viel zur Theorie. Ich zeige jetzt kurz in einer Live-Demonstration, wie die Software am Ende aussieht und was man am Ende dabei herausbekommt.

11:21

Wir haben als Beispiel die Easy-Seite eingetragen. Wenn die eingetragen ist, dann klicken wir hier auf Check. Und dann werden alle Prozesse, die ich vorgestellt habe, durchgeführt. Das heißt, die Seite wird jetzt erst mal gescraped. Es wird die Ladegeschwindigkeit der Seite ermittelt. Und zusätzlich dazu haben wir in dem Tool

11:40

auch noch die Funktion, dass wir zwei weitere Seiten der Domain scrapen, um zu prüfen, ob identische Titel-Tags auch auf den Unterseiten zu finden sind. Deswegen das erklärt, dass der Prozess der Software etwas langsam ist. Aber zu Testzwecken reicht das definitiv aus. Und wenn wir gleich hier durch sind mit der Ladeanimation,

12:03

dann sehen Sie auch den Bericht. Und dann werde ich den gleich nochmal kurz näher erläutern. Wir sehen es jetzt hier. Die Auswertung ist fertig. Ganz oben haben wir halt das Endergebnis, das Zusammenfassendergebnis, wahrscheinlich optimiert.

12:20

Und weiter unten sehen wir halt alle Indikatoren, die darauf hinweisen, warum das so ist. Also keine Tools zum Plugins werden genutzt. Die Seite war auch uns noch nicht bekannt, deswegen konnte sie nicht kategorisiert werden. Aber hier unten sehen wir bei den Indikatoren für SEO, es gibt ein Titel, die Ladegeschwindigkeit ist unter drei Sekunden. Es wird HTTPS genutzt und der Viewport ist definiert.

12:42

Das sind alles Kriterien dafür, dass wohl in irgendeiner Form Optimierung stattfindet. Und wenn man möchte, kann man sich diesen Bericht jetzt als CSV-Datei runterladen und für weitere Analysen dann auch verwenden. So und einmal zum Fazit und weiteren Vorgehen. Ja, wir haben ein Tool hier vorgestellt,

13:01

mit dem man die Wahrscheinlichkeit von Suchmaschinen optimieren auf eine einfache Art und Weise erst mal feststellen kann. Wir nutzen dieses Tool in unserem Forschungsprojekt, um schnelle Tests durchzuführen, unsere Regeln und um auch irgendwie einzelne Seiten zu prüfen. Das Tool arbeitet in Echtzeit.

13:20

Das heißt, wenn man eine UL-Line gibt, werden keine Datenmark-Abgleiche im Sinne hergestellt mit bekannten Dokumenten. Das wird immer auf dem Dokument neu quasi analysiert. Das einzige, was wir nutzen, sind natürlich die Listen mit den bekannten SEO-Plugins und den Kategorien. Und genau, es gibt natürlich trotzdem Grenzen hier. Das muss man einfach sagen. Da der Ansatz regelbasiert ist,

13:40

ist er vielleicht auch zu einfach an manchen Stellen. Da sind wir aber schon dabei über Machine Learning und so weiter, das auch weiter zu entwickeln, auch gerade um zu gucken, welche Indikatoren wir schon haben. Wir haben ja mehr Indikatoren erfasst, als wir für die Regeln benutzen. Das können wir noch nutzen. Was wir aber auch machen, ist, wir wollen auch in Zukunft mehr auf externe SEO-Signale eingehen, so etwas wie Anzahl der Backlinks auf einer Website.

14:01

Und wir wollen bei Machine Learning und uns an Supervised Learning vielleicht auch noch Merkmale finden, die wir bisher noch gar nicht auf der Liste haben. So viel erst mal dazu. Hier einmal die Quellen. Sie können sich gerne die Forschungsdaten und auch den Quelltext herunterladen. Das haben wir bei OSF hinterlegt. Dann danke ich für Ihre Aufmerksamkeit und freue mich auf Fragen und Anregungen.