Es scheitert an der Unendlichkeit: Warum Tools nicht alle Backlinks anzeigen

John Mueller von Google erklärt, warum es unmöglich ist, jede URL im Web zu crawlen.
“Es ist unmöglich, das gesamte Web zu crawlen”
Ein gefrusteter SEO-Profi hatte auf Reddit einen Thread gestartet und gefragt, warum SEO-Tools nicht alle Backlinks anzeigen. Googles Search Advocate John Mueller antwortete auf diese Frage, dass es unmöglich sei, das gesamte Web zu crawlen.
Welches Tool die Person benutzt, ist nicht wichtig. Laut Mueller sei es für kein Tool möglich, 100 % der eingehenden Links einer Website zu ermitteln.
“It’s theoretically impossible to crawl it all, since the number of actual URLs is effectively infinite. Since nobody can afford to keep an infinite number of URLs in a database, all web crawlers make assumptions, simplifications, and guesses about what is realistically worth crawling. (…)
Past that, some pages change quickly, others haven’t changed for 10 years – so crawlers try to save effort by focusing more on the pages that they expect to change, rather than those that they expect not to change.”
Welche URLs lohnen sich, gecrawlt zu werden?
Webcrawler, einschließlich Suchmaschinen und SEO-Tools, entscheiden, was sich lohnt, zu crawlen und was nicht. Mueller erklärt:
“The web is filled with junk that nobody cares about, pages that have been spammed into uselessness. These pages may still regularly change, they may have reasonable URLs, but they’re just destined for the landfill, and any search engine that cares about their users will ignore them.
Sometimes it’s not just obvious junk either. More & more, sites are technically ok, but just don’t reach “the bar” from a quality point of view to merit being crawled more.”
Mueller erklärt, dass alle Webcrawler mit einer “vereinfachten” Gruppe von URLs arbeiten.
Da es, wie bereits erwähnt, keinen richtigen Weg gibt, das Web zu crawlen, hat jedes SEO-Tool seine eigene Methode, um zu entscheiden, welche URLs es wert sind, gecrawlt zu werden. Deshalb kann ein Tool Backlinks entdecken, die ein anderes Tool nicht gefunden hat.
