Deep Crawl

Was bedeutet der Deep Crawl?

Der Begriff Deep Crawl bezieht sich auf das Crawlen von Suchmaschinen. Das Crawlen bezeichnet dabei das Durchsuchen von Inhalten im Internet. Für eine bestimmte Webpräsenz kann das in mehreren Stufen erfolgen.

Die erste Stufe ist zum Beispiel die Startseite der Webpräsenz. Diese wird oft durch die Root URL aufgerufen. Alle weiteren Inhalte, die über diese Root URL mit der entsprechenden Erweiterung aufgerufen werden können, befinden sich auf unterschiedlichen hierarchischen Ebenen. Das Deep Crawl durchsucht zahlreiche dieser Ebenen und versieht die gefundenen Inhalte mit Indizes.

Verschiedene Suchmaschinen gehen mit den Ebenen unterschiedlich um. In vielen Fällen wird der Suchvorgang auf eine bestimmte Ebene beschränkt. Damit wird verhindert, dass zum Beispiel automatisch generierte URLs unter der Root URL in das Crawling eingebunden werden. Denn es kann passieren, dass solche Crawl-Aufrufe sehr groß werden und das Hosting der Webpräsenz überfordern. In den Anfängen des Deep Crawl sind dabei nicht wenige Webserver abgestürzt.

Die Begrenzung auf eine sinnvolle Ebene schützt also beide Seiten vor einem unsinnigen Zugriff der Suchmaschine. Denn ein Suchvorgang über unzählige Ebenen kann mehrere Stunden in Anspruch nehmen. Während dieser Zeit ist sowohl die Suchmaschine beschäftigt, als auch die Webpräsenz per se gefragt.

Das kann bei entsprechender Dimensionierung auch dazu führen, dass die eigene Webpräsenz für tatsächliche Besucher nicht mehr oder eingeschränkt verfügbar ist. Das ist natürlich unbedingt zu verhindern.

Die Vorteile des Deep Crawl liegen jedoch auf der Hand. Unterseiten einer Webpräsenz werden als eigenständige Seiten erkannt. Sie können als Suchergebnis direkt aufgerufen werden und erhöhen so die Chancen im Suchmaschinen-Ranking. Pflegt man also eine gut strukturierte und inhaltlich logisch aufgebaute Webpräsenz, so ist das Deep Crawl eine tolle Möglichkeit. Denn es ist eine Option in der Suchmaschinenoptimierung.

Neben dem Suchmaschinen-Ranking an sich kann nämlich auch die logische Struktur einer Webpräsenz kritisch hinterfragt werden. Denn die Regeln des Suchmaschinen-Rankings werden auch auf die Unterseiten im Deep Crawl angewendet. Betrachtet man also den Inhalt an sich und den Aufbau unter dem Kontext des Crawl-Prozesses, ergibt sich eine optimale Verknüpfung.

Doch auch der Prozess des Deep Crawl unterliegt Regeln. Denn gibt es auf einer Webpräsenz sehr viele Unterseiten, läuft auch die Suchmaschine Gefahr, die eigenen Ressourcen einseitig einzusetzen. Deshalb gibt es für Suchmaschinen das sogenannte Crawl Budget. Das bedeutet, die Suchmaschine untersucht maximal eine festgelegte Anzahl an Seiten pro Root URL. Hat eine Seite nur wenige Unterseiten, ist das kein Problem. Werden jedoch dynamisch unzählige Unterseiten erzeugt, kann die Grenze schnell erreicht sein.

Dann geht unter Umständen wichtiger Inhalt der Website aus Sicht der Suchmaschine verloren. Gegen dieses Phänomen kann man jedoch Gegenmaßnahmen ergreifen. So können zum Beispiel unwichtige Seiten bewusst vom Crawling ausgeschlossen werden. Als Beispiel können Seitenaufrufe über eine spezifische URL genannt werden, die die Repräsentation des gleichen Inhalts mit verschiedenen Layouts repräsentieren. Diese können durch ein definiertes URL-Pattern direkt vom Deep Crawl ausgeschlossen werden.

Verzögerte Aktualisierungen von Suchergebnissen

Die Mechanismen des Deep Crawl sind komplex und können viel Zeit in Anspruch nehmen. Deshalb ist es nicht ungewöhnlich, dass sich ein Suchzyklus für eine bestimmte Root URL über mehrere Tage hinzieht.

Die Ergebnisse, die durch das Deep Crawl auf diese Weise entstehen, sind also nicht immer hochaktuell. Ändern sich Inhalte oder kommen neue Bereiche hinzu, kann es einige Zeit dauern, bis diese Inhalte sich auf das Suchmaschinen-Ranking auswirken.

Für die Strategie des Marketings bedeutet das, Relaunches und Inhaltsänderungen genau zu planen. So kann es sinnvoll sein, bereits einige Zeit vor der Freischaltung bestimmter Inhalte diese Inhalte dem Crawler zur Verfügung zu stellen. Auf diese Weise kann das Deep Crawl so beeinflusst werden, dass neue Seiten direkt mit einbezogen werden und bei Freischaltung auch den Nutzern in den Suchergebnissen zur Verfügung stehen.

Sie haben noch Fragen?

Kontaktieren Sie uns