Spider

Spider

Copyright © Shutterstock/novama

Was ist ein Spider?

Spider ist ein Softwareprogramm, das von Suchmaschinen wie Google, Bing oder Yahoo genutzt wird, um das Internet und Webseiten zu durchsuchen und die gesammelten Informationen in ihren Index aufzunehmen. Andere Bezeichnungen für Spider sind Crawler, Roboter oder Bots. Diese Tools sind Schlüsselelemente für die Funktionsweise der Suchmaschinen.

Funktionsweise der Spider

Um das Internet zu indexieren, benötigen die Suchmaschinen ein Tool, das Websites durchsucht, durch die Webseiten navigiert, Informationen über die Website sammelt, erkennt, worum es auf der Webseite geht und diese Daten zum Index der Suchmaschine hinzufügt. Spider durchsuchen das Internet und erstellen Listen von Websites, um weitere später weitere Untersuchungen durchzuführen. Wenn eine bestimmte Website von einem Crawler durchsucht wird, liest der Bot den gesamten Text, Hyperlinks, Meta-Tags, Informationen zu Bildern und den Code der Webseite.

Mithilfe dieser Informationen stellt der Crawler der Suchmaschine ein Profil der Webseite zur Verfügung. Der Bot sammelt dann zusätzliche Informationen, indem er den Hyperlinks auf der Webseite folgt, wodurch er weitere Informationen über diese Seiten erhält. Dies ist der Grund dafür, warum Links auf einer Webseite und von anderen Webseiten, die mit der eigenen verlinkt sind, helfen, dass eine Website von den Suchmaschinen gefunden und indexiert werden kann.

Die Crawler sammeln Daten in vier unterschiedlichen Modi. Ein Modus wird nur verwendet, um die Warteschlangen von Webseiten zu erstellen, die von anderen Spidern durchsucht werden sollen. Dieser Modus priorisiert, welche Seiten durchlaufen werden und prüft, ob eine frühere Version einer Seite bereits heruntergeladen wurde. Ein zweiter Modus wurde speziell dafür programmiert, Seiten zu überspringen, die bereits von einem anderen Bot derselben Suchmaschine gecrawlt wurden.

Dieser Modus wird als “Re-visitation” bezeichnet. Einige Suchmaschinen haben Bedenken, dass eine Seite zu gründlich gecrawlt wird. Daher verwenden sie einen Modus mit Namen “politeness”, der auf das Crawlen überarbeiteter Seiten begrenzt ist. Schließlich ermöglicht ein weiterer Modus die Koordination der Datensammlung der Spider, die die gleiche Seite durchsuchen oder durchsucht haben.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte