Skip to main content

PhraseRank

Was ist der PhraseRank?

PhraseRank ist die im Bereich Suchmaschinenoptimierung geläufige Bezeichnung für ein Google-Patent zu Phrase Based Information Retrieval und Spam-Erkennung. Der Kontext für dieses PhraseRank ein Information-Retrieval-System(im Wesentlichen eine andere Bezeichnung für “Suchmaschine”) wie Google, das Phrasen zum Indexieren, Suchen, Rangieren und Beschreiben von Dokumenten im Internet verwendet. Dieses System würde prüfen, wie diese Phrasen im Internet verwendet wurden, um zu entscheiden, ob sie “gültig” oder “gut” waren. Zusätzlich zu der Frage nach dem PhraseRank, also der Untersuchung, ob ihre Verwendung auf allen Webseiten statistisch gesehen signifikant war und wie häufig sie verwendet wurden, wird auch untersucht, wie diese Phrasen miteinander verwandt sein könnten – bestimmte Phrasen werden in den gleichen Dokumenten wie bestimmte andere Phrasen erwähnt.

Zum Beispiel könnte ein Dokument, das über den “Präsidenten der Vereinigten Staaten” spricht, wahrscheinlich auch den Ausdruck “Weißes Haus” enthalten. So kann das Aussehen einiger Phrasen verwendet werden, um das Auftreten anderer Phrasen vorherzusagen. Ein Spam-Dokument hingegen könnte eine übermäßige Anzahl von verwandten Phrasen enthalten.

Einige “Spam”-Seiten im Internet haben wenig aussagekräftigen oder Nutzen bringenden Inhalt, können aber stattdessen aus großen Sammlungen beliebter Wörter und Sätze bestehen. Diese Seiten werden manchmal als “Keyword Stuffed Pages” bezeichnet. Ähnliche Seiten, die spezifische Wörter und Phrasen enthalten, die für Werbetreibende interessant sein könnten, werden häufig als “Honeypots” bezeichnet und werden für Suchmaschinen zusammen mit bezahlter Werbung erstellt. Für Suchende, die nach sinnvollem Inhalt suchen, können diese Seiten Zeitverschwendung und Ursache von Frustration sein. Mithilfe des PhraseRank-Konzepts soll die Relevanz der Suchergebnisse für die Suchenden erhöht werden.

Der PhraseRank soll Suchmaschinen-Spam reduzieren

Googles Entwicklerin Anna Patterson ist die gelistete Erfinderin hinter einer Reihe von Patentanmeldungen, die ein auf Phrasen basierendes Informationssystem beschreiben, der PhraseRank ist dabei ein Teil dieser Neuerungen. Die Frage ist: Kann die Indizierung von Wortgruppen aus Seiten und die Erstellung eines darauf basierenden PhraseRank ein effektiver Ansatz zum Identifizieren und Filtern von mit Schlagwörtern gefüllten Seiten und von Honeypot-Seiten sein, die darauf abzielen, Besucher nur dazu zu bringen, auf Anzeigen zu klicken? Die Google zugewiesene Patentanmeldung zur Erkennung von Spam-Dokumenten in einem phrasenbasierten Informationssuchsystem lässt vermuten, dass dem tatsächlich so ist. Auch die folgende Passage aus der Patentschrift lässt darauf schließen:

Aus dem Vorstehenden wird die Anzahl der in einem gegebenen Dokument vorhandenen verwandten Phrasen bekannt sein. Ein normales Nicht-Spam-Dokument weist im Allgemeinen eine relativ begrenzte Anzahl von verwandten Phrasen auf, typischerweise in der Größenordnung von 8 bis 20, abhängig von der Dokumentensammlung. Im Gegensatz dazu weist ein Spam-Dokument eine übermäßige Anzahl von verwandten Phrasen auf, beispielsweise in der Größenordnung von 100 bis 1000 verwandten Phrasen. Somit nutzt die vorliegende Erfindung diese Erkenntnis, indem sie als Spam-Dokumente diejenigen Dokumente identifiziert, die eine statistisch signifikante Abweichung in der Anzahl von verwandten Phrasen relativ zu einer erwarteten Anzahl von verwandten Phrasen für Dokumente in der Dokumentensammlung aufweisen.

Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG