Crawling

Copyright ┬ę Shutterstock / Willequet Manuel

Was ist Crawling?

Crawler sind Programme, die Webseiten auffinden und indexieren sollen. Andere Bezeichnungen daf├╝r sind Webcrawler, Searchbot, Spider oder Robots. “Crawling”, also Kriechen, bezeichnet also die automatische Suche nach bestimmten Inhalten im World Wide Web, die damit verbundene Analyse sowie die anschlie├čende Sortierung der gefundenen Daten. Nat├╝rlich k├Ânnen dabei auch E-Mail-Adressen gesammelt werden.

Der erste Webcrawler ├╝berhaupt war der World Wide Web Wanderer 1993. Dieser diente zur Messung des Wachstums des Internets. Heutzutage gibt es eine Vielzahl von unterschiedlichen Webcrawlern.

Welche Crawling-Arten gibt es?

Crawling, das auf ein Thema fokussiert ist, wird “focussed crawling” genannt. Die Realisierung erfolgt ├╝ber die Klassifizierung der Webseite sowie ├╝ber jene der einzelnen Hyperlinks. Die H├╝rde dabei sind nicht-verlinkte Teilbereiche sowie das daf├╝r notwendige Training der Klassifizierer.
Ein weiteres Einsatzgebiet ist das “Data-Mining” sowie die Webometrie (Untersuchung des Internets).
Unter E-Mail-Harvester wird ein Webcrawler verstanden, der das Internet nach E-Mail-Adressen absucht. Diese werden geerntet und sp├Ąter vermarktet. Die Folge sind Spams. Abhilfe schaffen Einsch├╝be, die Mail-Adressen f├╝r das Crawling unleserlich machen, wie zum Beispiel “a@example.com wird zu a (at) example (dot) com. Somit wurde die Zeichenkette unterbrochen und der Crawler kann die Daten nicht lesen. Das gro├če Problem ist allerdings, dass auch sehbehinderte Menschen diese Adressen nicht mehr lesen k├Ânnen (Barrierefreiheit)! Dar├╝ber hinaus werden durch das Crawling urheberrechtlich gesch├╝tzte Inhalte aufgefunden.

Technischer Hintergrund

Der Webcrawler wandert ├╝ber Hyperlinks von einer URL zur n├Ąchsten. Dabei speichert er alle gefundenen Adressen. Er reiht diese auf seiner Liste aneinander. Somit k├Ânnen alle verlinkten Webseiten gefunden werden. Danach werden die Seiten ausgewertet (Indexierung). Das erm├Âglicht es dem Webcrawler, sp├Ąter in den gesammelten Daten weitersuchen zu k├Ânnen.

Einsatzgebiete von Crawlern

Crawler k├Ânnen verschiedene Aufgaben haben und bei verschiedenen Gebiete Website-Betreibende unterst├╝tzen.

F├╝r welche Einsatzgebiete sind Crawler zust├Ąndig?

  • Crawler k├Ânnen eingesetzt werden, um einen Index zu erstellen. Man muss aber vorsichtig sein, da die Crawler eine limitierte Zeit bei der Website verbringen, deswegen sollte man die Seiten priorisieren. Sobald Websites indexiert werden, werden diese auch dem Nutzer angezeigt.
  • Crawler k├Ânnen eingesetzt werden, um Website-Daten zu sammeln und auf dieser Basis dann Analysen durchzuf├╝hren. Informationen wie zum Beispiel an welche Tage und Uhrzeiten die Nutzer die Website benutzen k├Ânnen hier enthalten sein. Auch in der Performance Suite werden solche Daten angegeben, sowohl die M├Âglichkeiten einen Security-Check zu machen, um zu sichern, dass die Website sicher ist.
  • Crawler k├Ânnen eingesetzt werden, um Daten aus einer Website zu extrahieren (z.B. mit XPath), um dann auch hier Analysen durchzuf├╝hren.
  • Durch Data-Mining oder Data-Scrapping kann man E-Mail-Adressen oder Adressen von bestimmte Unternehmen sammeln.

Vor- und Nachteile

  • Die Vorteile liegen eindeutig bei der Verwertung im Marketing. Bei der breit gef├Ącherten Bandbreite an Informationen im Netz bleibt aber oft kein anderer Ausweg, als Daten zu filtern, analysieren und zu verwerten, um sp├Ąter auf diese zugreifen zu k├Ânnen. Marketing Strategien lassen sich so zielgerichteter ausrichten.
  • Die Nachteile liegen vor allem bei der Server oder Hosting Last, die entstehen k├Ânnen.

Tipp

H├Ąufig m├╝ssen etliche kostenintensive Tools herangezogen werden, um die Optimierungspotenziale im Rahmen einer OnPage-Analyse zu identifizieren. Unsere OSG Performance Suite enth├Ąlt die kostenfreie und einfachere L├Âsung: der OnPage Crawler.

┬ęOSG

Sie k├Ânnen sich auch gerne einen kostenlosen Account in unserer Performance Suite erstellen und von den Features profitieren!

Kostenlosen Account erstellen

Bekannte Crawler

Die bekanntesten Crawlern sind mit den Suchmaschinen streng verbunden, d.h. Suchmaschinen stellen Crawler zur Verf├╝gung, die die Mission haben verschiedene Seiten zu pr├╝fen und im Index zu erg├Ąnzen. Die bekanntesten Crawler lauten:

  • Googlebot
  • Bingbot
  • Yandex Bot
  • Baidu Spider

Bedeutung f├╝r SEO

Um indexiert zu werden und um in den Suchergebnissen vorzukommen, muss der Website-Betreibende das Crawlern einer Seite erlauben. Falls die Crawler geblockt werden, wird die Website in den organischen Suchergebnissen nicht angezeigt.

Ein regelm├Ą├čiges und automatisches Crawlen einer Website ist immer empfohlen, da es mehrmals Fehler entstehen und man somit diese so schnell wie m├Âglich beheben kann. Mit der Performance Suite kann man einen regelm├Ą├čigen Check vom OnPage Crawler machen und Auff├Ąlligkeiten sofort beheben.

Fazit

Crawler sind ein wichtiger Technikpunkt, der konstant gepr├╝ft werden soll und bei Auff├Ąlligkeiten sollten diese auch schnellstm├Âglich korrigiert werden. Wenn der Crawler viele Fehler entdeckt, wird seine Aufgabe abgebrochen und die Website leidet an Sichtbarkeit und Traffic. Man sollte deswegen aufmerksam sein und alles unter Kontrolle haben, zum Beispiel durch die Performance Suite, die mehrere Alerts schickt, wenn Fehler entdeckt werden.

FAQ

Was bedeutet Deep Web und Cloaking?

Da viele Inhalte des World Wide Webs nicht ├╝ber einfache Links, sondern Suchmasken oder Portale mit Zugangsbeschr├Ąnkung erreichbar sind, haben Webcrawler in diesen F├Ąllen das Nachsehen. Diese Bereiche werden daher Deep Web genannt. Dar├╝ber hinaus stellen st├Ąndige Ver├Ąnderungen sowie Manipulationen der Inhalte ein Riesenproblem dar (Cloaking).

Wie kann Crawling verhindert werden?

Robots Exclusion Standards kann in der Datei robots.txt sowie in speziellen Meta-Tags im HTML-Header dem Webcrawler falsche Anweisungen zur Indexierung geben. Eine Tarpit ist eine Webseite, die dem Crawler mit falschen Informationen f├╝ttert, u. a. auch, um ihn auszubremsen.

Warum ist Web Crawling so wichtig?

Aus SEO Sicht sind die Crawlers wichtig, damit die Website indexiert wird und in den organischen Suchergebnissen vorkommt.

Was sind Web Crawler Bots?

Die Crawler indexieren alle Inhalte im Internet. Die Crawler m├╝ssen die Inhalte von fast allen Seiten im Internet kennen, damit diese den Nutzer richtige Informationen bei den Suchanfragen anbieten k├Ânnen.

Ist es rechtlich erlaubt, fremde Websites zu crawlen?

Beim Website Crawlern kann man eigentlich alle Websites crawlen, es wird als Web Scraping benannt. Das Scraping ist nur illegal, wenn man Urheberrechte oder die Befehle von der Website f├╝r Crawler, nicht ber├╝cksichtigt.

Kostenlosen Account erstellen


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte