TrustRank
Was ist der TrustRank?
Der TrustRank ist eine Link-Analyse-Technik zur halbautomatischen Trennung von nĂŒtzlichen Webseiten von Spam. Viele Web-Spam-Seiten werden nur mit der Absicht erstellt, Suchmaschinen irrezufĂŒhren. Diese Seiten, die hauptsĂ€chlich aus kommerziellen GrĂŒnden erstellt wurden, verwenden verschiedene Techniken, um auf den Ergebnisseiten der Suchmaschinen ĂŒberdurchschnittliche Platzierungen zu erzielen. Obwohl menschliche Experten Spam leicht erkennen können, ist eine manuelle ĂberprĂŒfung des Internets unpraktisch. TrustRank automatisiert die Suche.
TrustRank soll Web-Spam erkennen
Der Begriff Web-Spam bezieht sich auf Seiten im World Wide Web, die mit der Absicht erstellt wurden, Suchmaschinen irrezufĂŒhren. Zum Beispiel kann eine Pornografie-Website das Web spammen, indem sie Tausende von SchlĂŒsselwörtern zu ihrer Homepage hinzufĂŒgt, wodurch der Text fĂŒr den Menschen oft durch den genialen Einsatz von Farbschemata unsichtbar wird. Eine Suchmaschine indiziert dann die zusĂ€tzlichen SchlĂŒsselwörter und gibt die Pornoseite als Antwort auf Anfragen zurĂŒck, die einige der SchlĂŒsselwörter enthalten. Da die hinzugefĂŒgten SchlĂŒsselwörter in der Regel nicht ausschlieĂlich erwachsener Natur sind, werden Personen, die nach anderen Themen suchen, auf die Seite gefĂŒhrt.
Genau wie bei E-Mail-Spam ist die Bestimmung, ob eine Seite oder eine Gruppe von Seiten Spam ist, subjektiv. Betrachtet man zum Beispiel eine Gruppe von Websites, die wiederholt auf die Seiten des anderen verlinken. Diese Links können nĂŒtzliche Beziehungen zwischen den Sites darstellen oder sie wurden mit der ausdrĂŒcklichen Absicht geschaffen, den Rang der anderen Seiten zu erhöhen. Im Allgemeinen ist es schwierig, zwischen diesen beiden Szenarien zu unterscheiden. Doch genau wie bei E-Mail-Spam können die meisten Menschen die FĂ€lle von Web-Spam leicht erkennen.
Web-Spam
Zum Beispiel wĂŒrden die meisten zustimmen, dass eine Seite eine irrefĂŒhrende Absicht verfolgt, wenn ein GroĂteil des Textes auf einer Seite fĂŒr Menschen unsichtbar gemacht wird (wie oben erwĂ€hnt) und fĂŒr das Hauptthema der Seite irrelevant ist. Dies gilt ebenso, wenn eine Seite mit Tausenden von URLs wirbt, die auf Hosts wie “kaufen Sie Kamera XY” verweisen und alle Hostnamen auf die gleiche IP-Adresse abbilden. Auch hier wĂŒrde man feststellen, dass die Seite erstellt wurde, um Suchmaschinen irrezufĂŒhren. Die Motivation hinter URL-Spamming ist, dass viele Suchmaschinen den Wörtern in Hostnamen besondere Aufmerksamkeit schenken und diesen Wörtern ein höheres Gewicht geben, als wenn sie im Klartext aufgetreten wĂ€ren.
Tipp
Wenn Sie noch Fragen bezĂŒglich IP-Adresse haben, dann können Sie gerne den jeweiligen Glossar dazu besuchen und sich ĂŒber das Thema informieren.
WĂ€hrend die meisten Personen so etwas schnell erkennen, bedeutet dies nicht, dass es fĂŒr einen Computer einfach ist, solche FĂ€lle zu erkennen. Suchmaschinenfirmen beschĂ€ftigen in der Regel Mitarbeiter, die auf die Erkennung von Web-Spam spezialisiert sind und das Internet stĂ€ndig nach TĂ€tern durchsuchen. Wenn eine Spam-Seite identifiziert ist, stoppt eine Suchmaschine das Crawlen und ihr Inhalt wird nicht mehr indiziert. Dieser Spam-Erkennungsprozess ist sehr teuer und langsam, aber entscheidend fĂŒr den Erfolg von Suchmaschinen: Ohne die Entfernung der TĂ€ter wĂŒrde die QualitĂ€t der Suchergebnisse immer schlechter.
Funktionsweise von TrustRank
Der TrustRank versucht, Spam zu bekĂ€mpfen, indem er das Internet nach seiner ZuverlĂ€ssigkeit filtert. Die Methode erfordert die Auswahl eines kleinen Satzes von Samenseiten, die von einem Experten bewertet werden sollen. Sobald die seriösen Seiten manuell identifiziert wurden, sucht ein Crawling-Algorithmus, der sich von den identifizierten Seiten nach auĂen erstreckt, Ă€hnlich zuverlĂ€ssige und vertrauenswĂŒrdige Seiten. Die ZuverlĂ€ssigkeit von TrustRank nimmt mit zunehmendem Abstand zwischen den Dokumenten und dem Seed-Set ab. Die Logik funktioniert auch in umgekehrter Weise, die als Anti-Trust Rank bezeichnet wird. Je nĂ€her eine Seite an den Spam-Ressourcen ist, desto wahrscheinlicher ist es auch, dass es sich um Spam handelt und so wird sie entsprechend klassifiziert.
Tipp
Wenn Sie noch Fragen bezĂŒglich eines Online Marketing Themas haben, dann können Sie gerne unseren Glossar besuchen und sich ĂŒber das Thema informieren, wo Sie noch speziell Fragen haben.
Sie haben noch Fragen?