Robots.txt

robots.txt

Copyright ┬ę Shutterstock/ Devenorr

Bei der Robots.txt handelt es sich um eine einfache Textdatei, in der festgelegt werden kann, welche Bereiche einer Website vom Crawler einer Suchmaschine wie Google gecrawlt werden d├╝rfen und welche nicht. Sie kann mit jedem g├Ąngigen Texteditor ge├Âffnet werden und enth├Ąlt oft auch einen Verweis auf die XML-Sitemap.

Was ist die Robots.txt?

Das Robots-Exclusion-Standard-Protokoll wurde 1994 entwickelt und wird mittlerweile standardm├Ą├čig von allen Suchmaschinen genutzt. Vereinfacht l├Ąsst sich sagen, dass in der Robots.txt, die der Betreiber auf seinem Server hinterlegt, festgelegt wird, welche Unterseiten einer Domain von den Suchmaschinen durchsucht werden d├╝rfen. Die Webcrawler der Suchmaschinen suchen beim Erfassen einer Seite stets zuerst nach der Robots.txt. Ist das Protokoll leer, wird automatisch auf die gesamte Website zugegriffen.

Die Datei findet verschiedene Anwendungen. Zum einen ist sie essentiell, wenn die Website einen Mitgliederbereich enth├Ąlt, der gegebenenfalls sogar kostenpflichtig ist. Ohne die Robots.txt-Datei k├Ânnte der Kunde sich die hier hinterlegten Daten per Suchmaschine zusammensuchen, oder Nutzer von au├čerhalb sensible Mitgliederdaten aufrufen. Der Ausschluss dieses Bereichs durch die Robots.txt verhindert den Zugriff. Das Robots-Protokoll kann jedoch auch solche Sektionen der Website von den Suchmaschinen ausschlie├čen, die pers├Ânliche Daten wie Anschrift und Telefonnummer enthalten, wenn diese nur zu Impressumszwecken hinterlegt sind, oder Bildergalerien, wenn diese nicht in der Bildersuche erscheinen sollen.

Im SEO-Bereich hat sich gezeigt, dass es praktisch irrelevant f├╝r das Ranking der Website ist, ob und welche Seiten sie durch das Protokoll exkludiert. Die Anwendung des Robots-Protokolles wird von den Suchmaschinen nicht gewertet, sondern lediglich umgesetzt. Wichtig ist jedoch, zu beachten, dass durch das Robots-Protokoll auch Content ausgeschlossen wird, der SEO-optimiert f├╝r ein Ranking sorgen soll, nach Anwendung des Protokolls jedoch f├╝r die Crawler nicht mehr zur Verf├╝gung steht.

Wie wird die Robots.txt angelegt?

In der Robots.txt m├╝ssen zuerst einmal die Bots gelistet sein, die mit dem Protokoll arbeiten sollen. So l├Ąsst sich zum Beispiel dem Bingbot eine Unterseite zu crawlen verbieten, w├Ąhrend man dem Googlebot den Zugriff auf den gesamten Content gew├Ąhrt. Die Bots werden in der Txt als “User-Agent :” bezeichnet und untereinander gelistet. Jeder Bot erh├Ąlt eine eigene Zeile. Danach werden mit “Disallow:” die URL-Endungen gelistet, die vom Crawler nicht ber├╝cksichtigt werden sollen. Auch hier ist es wichtig, f├╝r jeden Eintrag eine neue Zeile zu w├Ąhlen.

Tipp

Wenn Sie noch Fragen bez├╝glich Googlebot haben, dann k├Ânnen Sie gerne den jeweiligen Glossar dazu besuchen und sich ├╝ber das Thema informieren.

Die Datei ist sehr anf├Ąllig f├╝r Syntax-Fehler. Bereits der geringste Fehler f├╝hrt dazu, dass die Crawler das Protokoll missachten und auch Seiten listen, die eigentlich exkludiert sein sollten. Mit den Google Webmaster Tools l├Ąsst sich unter “Status” -> “Blockierte URLs” pr├╝fen, ob die Datei korrekt angewendet wird.

Alternativ bieten viele verschiedene Webservices Generatoren f├╝r das einfache Anlegen der Robots-Datei ohne Fachkenntnisse. Hier werden die Bots einfach aus Listen ausgew├Ąhlt und die Unterseiten abgefragt, die geblockt werden sollen. So entsteht ebenfalls eine voll funktionsf├Ąhige Protokoll-Datei, die den Zugriff auf die Website regelt.

Tipp

Wenn Sie noch Fragen bez├╝glich eines Online Marketing Themas haben, dann k├Ânnen Sie gerne unseren Glossar besuchen und sich ├╝ber das Thema informieren, wo Sie noch speziell Fragen haben.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte