Google krönt robots.txt offiziell zum formalen Web-Standard

Veröffentlicht von Florian Müller (GF) 03.07.2019 · Kategorie(n): News

Seit rund 25 Jahren ist das Robots Exclusion Protocol, besser bekannt, als robots.txt, der inoffizielle Standard zum Ausschluss von Webseiten, die nicht gecrawlt werden sollen. Google verkündete gestern auf verschiedenen Kanälen, dass robots.txt nun zum formalen Internet-Standard erhoben wird.

Today we’re announcing that after 25 years of being a de-facto standard, we worked with Martijn Koster (@makuk66), webmasters, and other search engines to make the Robots Exclusion Protocol an official standard!https://t.co/Kcb9flvU0b

— Google Webmasters (@googlewmc) 1. Juli 2019

Was ist robots.txt?

Robots.txt ist eine Datei, die es ermöglicht einen User Agent und Regeln zu erstellen, die dem Webmaster die Möglichkeit geben dem Crawler den Zugriff auf bestimmte Seiten zu verbieten. Diese Zugriffsverweigerung kann sowohl für einzelne URLs und Seiten, als auch für bestimmte Elemente gesetzt werden.

Von nun an soll das Protokoll bei der Internet Engineering Task Force (IETF) zum offiziellen Standard werden. So soll eine eindeutige Interpretation des Protokolls festgelegt werden. Manche Webmaster hatten nämlich in der Vergangenheit Probleme das Protokoll richtig zu schreiben. In seltenen Fällen wurde das Protokoll dann nicht richtig verwendet und manche Seiten wurden so nicht abgedeckt.

Tipp

Sensible Bereiche und Daten einer Website sollten niemals über die robots.txt geschützt werden, da auch Hacker dann genau wissen, wo sich sensible Daten befinden!

Standardisierung des Protokolls

Die Regeln, die vor 25 Jahren festgelegt wurden, werden von Google nicht verändert. Undefinierte Fälle beim robots.txt Parsing und Matching sollen nun aber vereinheitlicht werden. Auch Anpassungen auf das moderne Internet sollen erfolgen. Zusätzlich hat Google in dem Draft, dass sie der IETF geschickt haben, die Syntax für robots.txt klarer definiert. Künftig können undefinierte und undokumentierte Regeln dann nicht mehr genutzt werden.

robots.txt Parser wird Open Source

Google wird zukünftig auch den eigenen robots.txt Parser als Open Source bereitstellen. Damit öffnet Google die C++ library, die sie bei den eigenen Produktsystemen für Regeln beim Parcing und Matching in robots.txt-Elementen nutzen, für Entwickler. In das Open Source Tool soll zudem ein Test-Tool integriert werden, damit Entwickler gleich überprüfen können, ob ihre Arbeit korrekt ist.

To help developers create parsers that reflect the Robots Exclusion Protocol requirements, we’re releasing our robots.txt parser as open source!
Updated to cover all corner cases, the parser ensures that Googlebot only crawls what it’s allowed to.https://t.co/NmbLRzDkHF

— Google Webmasters (@googlewmc) 1. Juli 2019

Fazit

Durch die Standardisierung des Protokolls gewinnen sowohl Google als auch Webmaster mehr Kontrolle über ihre Inhalte im modernen Internet. Fehlerhafte Regeln werden so künftig minimiert und Google wird langfristig bessere Crawling Ergebnisse erhalten.

Quelle: OnlineMarketing.de