Googlebot

google bot

Copyright ┬ę Shutterstock/Roman3dArt

Was ist der Googlebot?

Der Googlebot ist der Crawling-Bot oder Crawling Spider von Google. Crawling ist der Prozess, bei dem der Bot neue und aktualisierte Seiten erkennt, sie analysiert und zum Google-Index hinzuf├╝gt.

Funktionsweise des Googlebot

Laut Aussage von Google verwendet der Bot einen algorithmischen Prozess, bei dem Computerprogramme bestimmen, welche Webseiten, wie oft und wie viele Unterseiten von jeder Webseite abgerufen, ausgewertet und indexiert werden sollen.

Info

F├╝r das Crawling nutzt der Bot eine Liste von Webseiten-URLs, die in vorangegangen Crawlingprozessen generiert und mit von den Webmastern eingereichten Sitemap-Daten f├╝r bestimmte Webseiten erg├Ąnzt wurden.

Beim Besuch der Webseiten aus der Liste erkennt der Bot SCR und HREF Links auf jeder der besuchten Seiten und fügt diese wiederum der Liste der zu crawlenden Seiten hinzu. Tote Links, Änderungen, die an bereits gecrawlten Webseiten vorgenommen wurden und neue Webseiten werden von Google für die kontinuierliche Aktualisierung des Index herangezogen. Der wichtigste Prozess für die Bereitstellung von Suchergebnissen bei Google sind das Crawlen und Antworten auf die Fragen, ob Google eine Webseite kennt und sie finden kann, ob Google die Webseite indizieren kann und ob eine Webseite aus Sicht Googles den Suchmaschinennutzern nützliche und gute Inhalte bietet. Antworten auf diese Fragen liefert der Spider von Google.

Der Googlebot ist so konzipiert, dass er auf mehrere Computer verteilt eingesetzt werden kann. Durch die Verteilung erreicht Google eine h├Âhere Leistung beim Crawlen, um der st├Ąndig steigenden Zahl an weltweit ver├Âffentlichten Webseiten gerecht zu werden. Aus diesem Grund kann es vorkommen, dass Webmaster in den Logfiles Besuche von mehreren Computern von google.com finden k├Ânnen. Googles Ziel ist es nach eigener Aussage, bei jedem Besuch einer Webseite so viele Unterseiten wie m├Âglich zu crawlen, ohne dabei die Bandbreite des Servers zu ├╝berlasten oder St├Ârungen bei der Verbindung anderer User zur Webseite zu verursachen. Wenn Webmaster St├Ârungen bedingt durch den Besuch des Google Bots feststellen, k├Ânnen sie bei Google eine ├änderung der Crawlingrate anfordern, um St├Ârungen in Zukunft zu vermeiden.

Das Crawlen einer Webseite oder einzelner Seiten untersagen

Nicht in jedem Fall ist das Crawlen einer Webseite durch den Google Spider erw├╝nscht oder sinnvoll. Wenn verhindert werden soll, dass der Spider Inhalte auf einer Website crawlt, haben Webmaster verschiedene Optionen, um dies zu verhindern. Die Verwendung der “robots.txt” Datei ist eine M├Âglichkeit, um den Zugriff durch den Bot auf Dateien und Verzeichnisse auf einem Server zu blockieren.

Google sagt, dass es nach dem Erstellen einer robots.txt Datei zu Verz├Âgerungen kommen kann, bevor der Bot die ├änderungen erkennt. Gegebenenfalls muss ├╝berpr├╝ft werden, ob sich die robots.txt Datei an der richtigen Position im Webverzeichnis befindet. Die Datei muss im obersten Verzeichnis des Servers gespeichert werden, anderenfalls wird sie vom Bot nicht gefunden und ignoriert. Wenn verhindert werden soll, dass der Googlebot bestimmten Links auf einer Seite folgt, kann dies mit dem Meta-Tag “nofollow” erreicht werden, in dem einem Link das Attribut rel = “nofollow” hinzugef├╝gt wird.

Googlebot-Optimierung vs. Suchmaschinenoptimierung

Die Optimierung einer Webseite f├╝r den Crawler von Google ist nicht dasselbe wie die Suchmaschinenoptimierung. Die Optimierung f├╝r den Google Spider geht eine Ebene tiefer. Die Suchmaschinenoptimierung konzentriert sich mehr auf den Optimierungsprozess f├╝r Benutzeranfragen. Die Optimierung f├╝r den Google Spider konzentriert sich darauf, wie der Crawler auf eine Website zugreift.

Der Googlebot verbringt mehr Zeit damit, Websites mit hohem Seitenrang zu crawlen. Die Zeit, die der Googlebot einer Website zur Verf├╝gung stellt, wird als “Crawling-Budget” bezeichnet. Je gr├Â├čer die Autorit├Ąt einer Seite, desto mehr Crawling-Budget erh├Ąlt sie. Der Spider crawlt eine Website immer. Google sagt dazu: “Googlebot sollte nicht mehr als einmal alle paar Sekunden auf Ihre Website zugreifen.” Mit anderen Worten, eine Website wird immer gecrawlt, vorausgesetzt die Website l├Ąsst das Crawlen zu. Es gibt einige Diskussionen unter SEOs ├╝ber die “Crawling-Rate” und wie man Google dazu bringt, eine Website f├╝r eine optimale Platzierung neu zu crawlen. Hier gibt es ein Missverst├Ąndnis in der Terminologie, da sich die“Crawling-Rate” von Google auf die Geschwindigkeit der Googlebot-Anfragen und nicht auf die Wiederholung des Crawlens der Website bezieht. Die Crawling-Rate in der Google Search Console (ehemals Webmaster-Tools) ge├Ąndert werden.

Tipp

Der Googlebot crawlt eine Website durchg├Ąngig und je frischer Backlinks oder Erw├Ąhnungen in den sozialen Netzwerken sind, desto wahrscheinlicher ist es, dass eine Website in den Suchergebnissen angezeigt wird. Es ist wichtig zu beachten, dass der Googlebot nicht st├Ąndig jede einzelne Seite einer Website crawlt. Jedoch gewinnt frischer, konsistenter Content immer die Aufmerksamkeit des Crawlers und verbessert die Wahrscheinlichkeit eines guten Rankings.

Vorgehensweise des Crawlers

Der Googlebot greift zuerst, falls vorhanden, auf die robots.txt einer Website zu, um die Regeln zum Crawlen der Seite zu ermitteln. Alle Seiten, die nicht zugelassen sind, werden nicht gecrawlt oder indiziert. Der Spider verwendet die Datei sitemap.xml, um alle Bereiche der Website zu ermitteln, die gecrawlt und indiziert werden sollen. Aufgrund der Unterschiede in der Art und Weise, wie Websites erstellt und organisiert werden, crawlt der Crawler m├Âglicherweise nicht automatisch alle Seiten oder Abschnitte. Dynamische Inhalte, Seiten mit niedrigem Rang oder umfangreiche Inhaltsarchive mit geringer interner Verlinkung k├Ânnten von einer genau erstellten Sitemap profitieren. XML-Sitemaps sind auch hilfreich, wenn Google ├╝ber die Metadaten zu Kategorien wie Videos, Bilder, Mobilger├Ąte und Nachrichten informiert werden soll.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte