Duplicate Content

duplicate-content

Copyright © Shutterstock/ arfa adam

Wenn im World Wide Web auf verschiedenen Webseiten identische Inhalte existieren, dann handelt es sich um Duplicate Content. Das kann für User, die nach einzigartigen Inhalten suchen, sehr verwirrend sein, zudem stört es Suchmaschinen wie Google. Dies hat zur Folge, dass sich kopierte Inhalte negativ auf das Google Ranking auswirken. Trotzdem gibt es im Internet nach wie vor viele Webseiten, auf denen Duplicate Content zu finden ist.

Was ist Duplicate Content?

Ganz einfach ausgedrückt sind das doppelte oder identische Inhalte, die auf mehreren Webseiten zu finden sind. Werden also identische Textabschnitte oder Zeilen auf zwei oder mehreren Webseiten gefunden, so handelt es sich um Duplicate Content. Hierbei reichen schon gewisse Definitionen oder Textpassagen oder Textblöcke aus, der Text muss also nicht eins zu eins kopiert sein.

Es wird dabei allerdings unterschieden, ob die identischen Inhalte auf der gleichen, oder auf zwei verschiedenen Webseiten vorkommen. Ein identischer Inhalt auf der gleichen Webseite wird als interner Duplicate Content, und auf verschiedenen Webseiten als externer Duplicate Content bezeichnet.
Das exakte Kopieren von bereits existierenden Inhalten wird sofort von einem Duplicated Content Checker entdeckt und angezeigt. Bei teilweise übereinstimmenden Passagen ist das Entdecken schon etwas schwieriger und wird bei einer Überprüfung nicht immer sofort erkannt.

 

Ab wann handelt es sich um einen kopierten Inhalt?

Nicht jeder Inhalt, den es bereits gibt, gilt sofort als Kopie. Deshalb ist es für viele wichtig zu wissen, ab wann Google einen Inhalt als Kopie sieht. Deshalb werden Zitate oder zitierte Zeilen eines Textes bei Google nicht als kopierter Inhalt gewertet. Diese müssen allerdings im Quellcode richtig gekennzeichnet sein.

Bei identischen Metadaten, werden Inhalte von Google bereits als kopierte Inhalte erkannt.
Werden identische Inhalte auf mehreren URLs einer Domain festgestellt, so zählt dies ebenso als Duplicate Content. Um als Duplikat zu gelten, reichen hierbei – wie erwähnt – schon größere übereinstimmende Teile des gleichen Inhalts aus.

Wie Suchmaschinen einen kopierten Inhalt automatisch erkennen

Für die Erkennung doppelter Inhalte setzen Suchmaschinen wie Google einen speziellen Algorithmus ein. Zu diesem Zweck wird sehr häufig der sogenannte “Shingle Algorithmus” verwendet. Der zu überprüfende Text wird in einzelne Cluster (oder eben Shingles) eingeteilt und anschließend mit anderen bereits existierenden Texten verglichen.
Das sieht folgendermaßen aus:

Originaltext: “Winterliche Bekleidung für Herren in Blau”

  • “Winterliche Bekleidung für”
  • “Bekleidung für Herren”
  • “für Herren in”
  • “Herren in Blau”

Duplicate Content: “Schöne Bekleidung für Herren in Schwarz”

  • “Schöne Bekleidung für”
  • “Bekleidung für Herren”
  • “für Herren in”
  • “Herren in Schwarz”

Wie zu sehen ist, sind zwei von vier Shingles identisch. Der Sätze gleichen sich zu 50 Prozent und haben einen sehr hohen Gleichungsanteil.

Wichtig ist in diesem Kontext: Meistens erstellen Websitebetreiber nicht absichtlich doppelte Inhalte. Das heißt aber nicht, dass es doppelte Inhalte im Web nur selten vorkommen. Man kann davon ausgehen, dass bis zu 29% der Web-Inhalte tatsächlich um doppelten Content sind!

Wieso sollte man sich mit Duplicate Content näher auseinandersetzen?

Es gibt so viele Mythen über doppelte Inhalte. Verbreitet ist etwa die Ansicht, dass Duplicate Content eine Strafe (Penalty) von Google nach sich zieht, zudem wird unterstellt, dass unterschiedliche Seiten in Konkurrenz treten und ihrer Website Schaden zufügen. Aus Forenbeiträgen, Reddit-Threads und sogar auch SEO-Nachrichten wird ersichtlich, dass viele Nutzer nicht wissen, wie Google mit doppelten Inhalten umgeht.

Welche Probleme können mit Duplicate Content entstehen?

Doppelte Inhalte verwirren Google und zwingen die Suchmaschine, auszuwählen, welche der identischen Seiten in den Top-Ergebnissen aufgeführt werden soll und welche nicht. Unabhängig davon, wer den Inhalt erstellt hat, besteht eine hohe Wahrscheinlichkeit, dass die Originalseite nicht diejenige ist, die für die Top-Suchergebnisse ausgewählt wurde.

Gründe für Duplicate Content

Schauen wir uns einige der häufigsten Wege an, auf denen doppelte Inhalte unbeabsichtigt erstellt werden:

1. URL-Variationen

URL-Parameter wie Klickverfolgung und einige Analysecodes können zu Problemen mit doppeltem Inhalt führen. Dies kann ein Problem sein, das nicht nur durch die Parameter selbst verursacht wird, sondern auch durch die Reihenfolge, in der diese Parameter in der URL selbst angezeigt werden. Beispiele für unterschiedliche URL-Parameter sind etwa:

  • www.example.com/index.php?a=1&b=2
  • www.example.com/index.php?b=2&a=1

In ähnlicher Weise sind Sitzungs-IDs ein häufiger Grund von doppelten Inhalten. Dies geschieht, wenn jedem Website-Besucher eine andere Sitzungs-ID zugewiesen wird, und diese in der URL gespeichert wird. Sitzungs-IDs oder -Parameter können also Duplicate Content erstellen, auch druckerfreundliche Aufbereitungen von Inhalten können zu Problemen mit doppelten Inhalten führen, eben dann, wenn mehrere Versionen der Seiten indiziert werden.

Zusammenfassend ist also zu sagen, dass das Hinzufügen von URL-Parametern oder alternativen Versionen von URLs zu vermeiden ist, zumal die darin enthaltenen Informationen normalerweise über Skripte übertragen werden können.

2. HTTP vs. HTTPS oder WWW vs. Nicht-WWW-Seiten

Existierende Websites mit demselben Inhalt unter “www.example.com” und “example.com” (also mit und ohne Präfix “www”), haben Sie effektiv Duplicate Content von jeder dieser Site-Versionen. Ähnliches gilt für Websites, die Versionen sowohl unter http: // als auch unter https: // verwalten. Wenn beide Versionen einer Seite live sind und für Suchmaschinen sichtbar sind, sind Probleme mit doppelten Inhalten mitunter die Folge.

Tipp

Die OSG Performance Suite stellt eine zentrale Verwaltung für Ihre SEO-Texte und Backlinks dar. Zur Abstimmung im Team können die Links und Texte jederzeit von Ihnen und Ihren Partnern kommentiert werden. Die Performance Suite bietet Ihnen eine vollständige Übersicht über Ihre Texte und prüft stetig die Rankings und OnPage Werte für Ihre Texte. Das Content-Tool führt automatisch einen Check auf Duplicate Content bei Ihren Texten durch. Des Weiteren empfehlen wir Ihnen, sich unseren Blogbeitrag zum Thema Duplicate Content anzuschauen, wo wir Ihnen praktische Tipps und Informationen zur Vermeidung von Duplicate Content vorstellen.

Duplicate Content vermeiden

Das Beheben oder Vermeiden von Problemen mit doppelten Inhalten führt immer auf diesen kleinsten gemeinsamen Nenner: Festlegen, welches der doppelten Inhalte der “richtige” ist.

Wenn Inhalte auf einer Website unter mehreren URLs gefunden werden können, sollten diese für Suchmaschinen kanonisiert werden. Hierfür existieren diese drei Möglichkeiten:

  • Verwenden einer 301-Umleitung zur richtigen URL
  • Verwenden des Attributs rel = canonical
  • der Einsatz des Tools zur Parameterbehandlung in der Google Search Console.

301 umleiten

In vielen Fällen liegt der beste Weg zur Duplicate-Content-Vermeidung in der Einrichtung einer 301-Umleitung: Eben von der “doppelten” Seite zum ursprünglichen Inhalt.

Hierdurch werden im Grunde mehrere Seiten mit einem guten Ranking-Potenzialen zu einer einzigen Seite zusammengefasst  und sie konkurrieren nicht mehr miteinander. Zudem erzeugen Sie dadurch auch stärkere Relevanz- und Beliebtheitssignale. Dies stärkt die Fähigkeit der “richtigen” Seite, ein gutes Ranking zu erzielen.

rel=”canonical”

Eine weitere Option für den Umgang mit doppelten Inhalten ist die Verwendung des Attributs rel = canonical. Dies teilt Suchmaschinen direkt mit, dass eine bestimmte Seite so behandelt werden soll, als wäre sie eine Kopie einer angegebenen URL; alle Links, Inhaltsmetriken und die verbundene “Ranking Power”, welche Suchmaschinen auf diese Seite anwenden, werden der tatsächlich angegebenen URL “gutgeschrieben”.

Praktisch sieht das dann so aus: Das Attribut rel = “canonical” ist Teil des Head-Elementes einer Webseite und sieht folgendermaßen aus:

<link rel=“canonical“href=“http://www.example.de/examplepage.htm”>

Das Attribut rel=canonical sollte dem HTML-Head-Element einer jeder “duplizierten” Seiten-Version hinzugefügt werden, wobei der Abschnitt “http://www.example.de/examplepage.htm” oben durch einen Link zur ursprünglichen (kanonischen) Seite ersetzt wird. (Stellen Sie hierbei sicher, dass Sie die Anführungszeichen beibehalten.) Das Attribut übergibt ungefähr die gleiche Menge an Link-Kapital (Ranking-Leistung) wie eine 301-Umleitung und benötigt häufig weniger Entwicklungszeit, da es auf Seitenebene implementiert wird.

Verwenden von MozBar zum Identifizieren kanonischer Attribute.

Hier können wir sehen, dass BuzzFeed die Attribute rel = canonical verwendet, um die Verwendung von URL-Parametern zu berücksichtigen (in diesem Fall klicken Sie auf Tracking). Obwohl auf diese Seite über zwei URLs zugegriffen werden kann, garantiert das Attribut rel = canonical, dass alle Link-Equity- und Inhaltsmetriken der ursprünglichen Seite zugewiesen werden.

Meta Robots Noindex

Ein Meta-Tag, welcher beim Handling von doppelten Inhalten nützlich sein kann, ist Meta Robots. Nämlich dann, wenn sie mit den Werten “noindex, follow” verwendet werden. Dieses Meta-Robots-Tag wird allgemein als Meta-Noindex,Follow bezeichnet und ist technisch als content=”noindex,follow” bekannt. Es kann dem HTML-Head-Element jeder einzelnen Seite hinzugefügt werden, welche aus dem Index einer Suchmaschine ausgeschlossen werden sollen.

Mit dem Meta-Robots-Tag können Suchmaschinen die Links auf einer Seite crawlen, ohne jedoch diese Links in ihre Indizes aufzunehmen. Wichtig ist, dass der Duplicate Content weiterhin auch ohne Indizierung gecrawlt werden kann. Google warnt nämlich ausdrücklich davor, den Crawling-Zugriff auf doppelte Website-Inhalte einzuschränken. (Suchmaschinen möchten prinzipiell alles sehen,  etwa wenn Sie einen Fehler in Ihrem Code gemacht haben. Dadurch können sie in ansonsten mehrdeutigen Situationen einen [wahrscheinlich automatisierten] “judgment call” tätigen.)

Die Verwendung von Meta robots ist eine besonders gute Problem-Lösung bei doppelten Inhalt im Zusammenhang mit der Paginierung.

Bevorzugte Domain- und Parameterbehandlung in der Google Search Console

Mit der Google Search Console können Sie die bevorzugte Domain Ihrer Website festlegen (zum Beispiel http://example.com anstelle von http://www.example.com) und angeben, ob der Googlebot verschiedene URL-Parameter unterschiedlich crawlen soll (Parameterbehandlung) oder nicht.

Abhängig von Ihrer URL-Struktur und der Ursache Ihrer Probleme mit doppelten Inhalten kann das Einrichten Ihrer bevorzugten Domain- oder Parameterbehandlung (oder beides!) eine Lösung bieten.

Der Hauptnachteil bei der Verwendung der Parameterbehandlung als primäre Methode für den Umgang mit doppelten Inhalten besteht darin, dass die von Ihnen vorgenommenen Änderungen nur für Google funktionieren. Die mit der Google Search Console festgelegten Regeln haben keinen Einfluss darauf, wie Bing oder die Crawler anderer Suchmaschinen Ihre Website interpretieren. Sie müssen also zusätzlich die Webmaster-Tools anderer Suchmaschinen verwenden und die Einstellungen in der Search Console anpassen.

Relevanz im SEO

Welche Auswirkungen auf die SEO-Performance einer Website hat interner Duplicate Content, wenn also der gleiche Inhalt einer Website unter verschiedenen URLs abrufbar ist (z. B. aufgrund eines Parameters)? Dieser kann gemäß eines Artikels auf seroundtable.com wie folgt zu einem Problem für Webmaster werden:

1.) Sind mehrere URLs mit gleichem Inhalt vorhanden, sucht sich Google eine URL für die Suchergebnis-Seite aus – vielleicht aber nicht diejenige, die sie in den SERPs haben wollen. Wenn man eine bestimmte Seite in den Suchresultaten sehen möchte, sollte man dies der Suchmaschine via Weiterleitung, Canonical-Tag oder internen Links mitteilen.

2.) Je nach Umfang an Duplicate Content (Kommt ein bestimmter Content 2-, 20- oder 200-Mal vor) kann es passieren, dass der Server unter der Crawling-Last zusammenbricht oder dass neuer Content nicht so schnell in den Suchindex gelangt.

Laut John Mueller von Google sind dies im Fall einer vernünftigen Anzahl an Duplikaten und einem starken Server aber keine wirklichen Probleme, um die man sich Sorgen machen müsste.

Unsere Erfahrung hat gezeigt, dass man Duplicate Content, wenn möglich immer vermeiden sollte, auch wenn nicht direkt Probleme entstehen. Zu schnell ist der Punkt erreicht, an dem negative Effekte eintreten. Mit Duplikaten steigt z.B. auch die Zahl der Seiten, die der Server im Cache behalten muss und damit der Ressourcenbedarf einer Webseite. Deshalb der Rat: Duplicate Content durch eine clevere Seitenarchitektur besser von Anfang an vermeiden!

Offiziell verhängt Google keine Strafe für doppelte Inhalte. Es werden jedoch identische Inhalte gefiltert und eben dies hat die gleiche Auswirkung wie eine Strafe: ein Ranking-Verlust für Ihre Webseiten.

Duplicate Content verhindert also, dass all Ihre Seiten in den Suchergebnissen (oben) rangieren. Google nimmt Hinweise von den Seiten in seinen Index und zeigt in allen Fällen dann nur die relevanteste Seite für die Suchanfrage an. Mit doppelten Inhalten schwächen Sie Ihre Ranking Power und damit zusammenhängend auch Ihr Linkprofil, wenn sich identische Inhalte an zwei oder mehreren Stellen auf Ihrer eigenen Website befinden. Haben Sie also eine starke Seite mit gutem Inhalt und hochwertigen Backlinks, ist es ratsam, diese thematisch nicht einfach zu duplizieren.Die Gefahr besteht, dass eben nicht die Originalseite von Google indiziert wird.

FAQ

Was bedeutet Duplicate Content im SEO?

Bei doppelten Inhalten handelt es sich um Content, welcher im Internet an mehr als einer Stelle erscheint. Wenn es mehrere Teile von offenkundig ähnlichem (wie Google es nennt) an mehr als einer Stelle im Internet gibt, kann es für Suchmaschinen schwierig sein zu entscheiden, welche Version für eine bestimmte Suchanfrage relevanter ist.

Bestraft Google Duplicate Content?

Das Duplizieren von Inhalten führt nicht zu einer Bestrafung Ihrer Website. Google will aber den Nutzern Vielfalt in den Suchergebnissen bieten und eben nicht immer den gleichen Artikel. Daher zeigt Google nur eine Version in den Suchergebnisseiten an. Doppelte Inhalte können dabei durch entsprechende Hinweise im HTML-Code als solche für Google sichtbar gemacht werden. Prinzipiell ist Duplicate Content kein Grund zum Handeln, es sei denn, die Suchergebnisse werden von Betreibern konkurrierender Websites mutwillig manipuliert.

Wie prüft man im SEO auf doppelte Inhalte?

Eines der bekanntesten Tools für doppelte Inhalte ist wahrscheinlich CopyScape.com. Dieses Tool funktioniert recht einfach: Fügen Sie einen Link in das Feld auf der Startseite ein, und CopyScape liefert eine Reihe von Ergebnissen, die in etwa denen der Suchergebnisseiten von Google ähneln.

Wie viel Duplicate Content ist akzeptabel?

Eine gute Faustregel lautet: Wenn Sie viele Seiten haben, die - abgesehen von einem oder zwei Seiten-Elementen - doppelt aussehen, dann sollten diese Seiten wahrscheinlich zu einer aussagekräftigen Seite zusammengefasst werden.

Was ist Kanonisierung in der SEO?

Mit dem Canonical Tag (auch bekannt als rel canonical) teilen Sie Suchmaschinen mit, dass eine bestimmte URL die duplizierte Version einer Seite darstellt. Canonical Tags verhindern dadurch Probleme, welche durch identische Inhalte, die unter unterschiedlichen URLs erscheinen, verursacht werden.

Fazit

Duplicate Content stellt ein sehr großes Problem für den SEO-Bereich dar. Die Rankings durch Google werden dadurch negativ beeinflusst. Die eigene Webseite sollte deshalb geschützt werden, folgende Punkte sind dafür relevant:

  • Ein Abschreiben der Inhalte von anderen Webseiten sollte unterlassen werden!
  • Auch das Veröffentlichen von doppelten Inhalten auf der eigenen Webseite ist nicht empfehlenswert!
  • Es empfiehlt sich daher, die eigene Webseite immer wieder auf kopierte Inhalte zu überprüfen!

Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte