Googlebot

Inhaltsverzeichnis

Was ist der Googlebot?

Der Googlebot ist der Crawling-Bot oder Crawling Spider von Google. Crawling ist der Prozess, bei dem der Bot neue und aktualisierte Seiten erkennt, sie analysiert und zum Google-Index hinzufügt.

Funktionsweise des Googlebot

Laut Aussage von Google verwendet der Bot einen algorithmischen Prozess, bei dem Computerprogramme bestimmen, welche Webseiten, wie oft und wie viele Unterseiten von jeder Webseite abgerufen, ausgewertet und indexiert werden sollen.

Info

Für das Crawling nutzt der Bot eine Liste von Webseiten-URLs, die in vorangegangen Crawlingprozessen generiert und mit von den Webmastern eingereichten Sitemap-Daten für bestimmte Webseiten ergänzt wurden.

Beim Besuch der Webseiten aus der Liste erkennt der Bot SCR und HREF Links auf jeder der besuchten Seiten und fügt diese wiederum der Liste der zu crawlenden Seiten hinzu. Tote Links, Änderungen, die an bereits gecrawlten Webseiten vorgenommen wurden und neue Webseiten werden von Google für die kontinuierliche Aktualisierung des Index herangezogen. Der wichtigste Prozess für die Bereitstellung von Suchergebnissen bei Google sind das Crawlen und Antworten auf die Fragen, ob Google eine Webseite kennt und sie finden kann, ob Google die Webseite indizieren kann und ob eine Webseite aus Sicht Googles den Suchmaschinennutzern nützliche und gute Inhalte bietet. Antworten auf diese Fragen liefert der Spider von Google.

Der Googlebot ist so konzipiert, dass er auf mehrere Computer verteilt eingesetzt werden kann. Durch die Verteilung erreicht Google eine höhere Leistung beim Crawlen, um der ständig steigenden Zahl an weltweit veröffentlichten Webseiten gerecht zu werden. Aus diesem Grund kann es vorkommen, dass Webmaster in den Logfiles Besuche von mehreren Computern von google.com finden können.

Googles Ziel ist es nach eigener Aussage, bei jedem Besuch einer Webseite so viele Unterseiten wie möglich zu crawlen, ohne dabei die Bandbreite des Servers zu überlasten oder Störungen bei der Verbindung anderer User zur Webseite zu verursachen. Wenn Webmaster Störungen bedingt durch den Besuch des Google Bots feststellen, können sie bei Google eine Änderung der Crawlingrate anfordern, um Störungen in Zukunft zu vermeiden.

Das Crawlen einer Webseite oder einzelner Seiten untersagen

Nicht in jedem Fall ist das Crawlen einer Webseite durch den Google Spider erwünscht oder sinnvoll. Wenn verhindert werden soll, dass der Spider Inhalte auf einer Website crawlt, haben Webmaster verschiedene Optionen, um dies zu verhindern. Die Verwendung der “robots.txt” Datei ist eine Möglichkeit, um den Zugriff durch den Bot auf Dateien und Verzeichnisse auf einem Server zu blockieren.

Google sagt, dass es nach dem Erstellen einer robots.txt Datei zu Verzögerungen kommen kann, bevor der Bot die Änderungen erkennt. Gegebenenfalls muss überprüft werden, ob sich die robots.txt Datei an der richtigen Position im Webverzeichnis befindet.

Die Datei muss im obersten Verzeichnis des Servers gespeichert werden, anderenfalls wird sie vom Bot nicht gefunden und ignoriert. Wenn verhindert werden soll, dass der Googlebot bestimmten Links auf einer Seite folgt, kann dies mit dem Meta-Tag “nofollow” erreicht werden, in dem einem Link das Attribut rel = “nofollow” hinzugefügt wird.

Googlebot-Optimierung vs. Suchmaschinenoptimierung

Die Optimierung einer Webseite für den Crawler von Google ist nicht dasselbe wie die Suchmaschinenoptimierung. Die Optimierung für den Google Spider geht eine Ebene tiefer. Die Suchmaschinenoptimierung konzentriert sich mehr auf den Optimierungsprozess für Benutzeranfragen. Die Optimierung für den Google Spider konzentriert sich darauf, wie der Crawler auf eine Website zugreift.

Der Googlebot verbringt mehr Zeit damit, Websites mit hohem Seitenrang zu crawlen. Die Zeit, die der Googlebot einer Website zur Verfügung stellt, wird als “Crawling-Budget” bezeichnet. Je größer die Autorität einer Seite, desto mehr Crawling-Budget erhält sie. Der Spider crawlt eine Website immer. Google sagt dazu: “Googlebot sollte nicht mehr als einmal alle paar Sekunden auf Ihre Website zugreifen.” Mit anderen Worten, eine Website wird immer gecrawlt, vorausgesetzt die Website lässt das Crawlen zu. Es gibt einige Diskussionen unter SEOs über die “Crawling-Rate” und wie man Google dazu bringt, eine Website für eine optimale Platzierung neu zu crawlen. Hier gibt es ein Missverständnis in der Terminologie, da sich die “Crawling-Rate” von Google auf die Geschwindigkeit der Googlebot-Anfragen und nicht auf die Wiederholung des Crawlens der Website bezieht. Die Crawling-Rate in der Google Search Console (ehemals Webmaster-Tools) geändert werden.

Tipp

Der Googlebot crawlt eine Website durchgängig und je frischer Backlinks oder Erwähnungen in den sozialen Netzwerken sind, desto wahrscheinlicher ist es, dass eine Website in den Suchergebnissen angezeigt wird. Es ist wichtig zu beachten, dass der Googlebot nicht ständig jede einzelne Seite einer Website crawlt. Jedoch gewinnt frischer, konsistenter Content immer die Aufmerksamkeit des Crawlers und verbessert die Wahrscheinlichkeit eines guten Rankings.

Vorgehensweise des Crawlers

Der Googlebot greift zuerst, falls vorhanden, auf die robots.txt einer Website zu, um die Regeln zum Crawlen der Seite zu ermitteln. Alle Seiten, die nicht zugelassen sind, werden nicht gecrawlt oder indiziert. Der Spider verwendet die Datei sitemap.xml, um alle Bereiche der Website zu ermitteln, die gecrawlt und indiziert werden sollen.

Aufgrund der Unterschiede in der Art und Weise, wie Websites erstellt und organisiert werden, crawlt der Crawler möglicherweise nicht automatisch alle Seiten oder Abschnitte. Dynamische Inhalte, Seiten mit niedrigem Rang oder umfangreiche Inhaltsarchive mit geringer interner Verlinkung könnten von einer genau erstellten Sitemap profitieren. XML-Sitemaps sind auch hilfreich, wenn Google über die Metadaten zu Kategorien wie Videos, Bilder, Mobilgeräte und Nachrichten informiert werden soll.

Sie haben noch Fragen?

Kontaktieren Sie uns