Duplicate Content

Duplicate Content

Copyright ┬ę Shutterstock/ arfa adam

Wenn im World Wide Web auf verschiedenen Webseiten identische Inhalte existieren, dann handelt es sich um Duplicate Content. Das kann f├╝r User, die nach einzigartigen Inhalten suchen, sehr verwirrend sein, zudem st├Ârt es Suchmaschinen wie Google. Dies hat zur Folge, dass sich kopierte Inhalte negativ auf das Google Ranking auswirken. Trotzdem gibt es im Internet nach wie vor viele Webseiten, auf denen Duplicate Content zu finden ist.

Was ist Duplicate Content?

Ganz einfach ausgedr├╝ckt sind das doppelte oder identische Inhalte, die auf mehreren Webseiten zu finden sind. Werden also identische Textabschnitte oder Zeilen auf zwei oder mehreren Webseiten gefunden, so handelt es sich um Duplicate Content. Hierbei reichen schon gewisse Definitionen oder Textpassagen oder Textbl├Âcke aus, der Text muss also nicht eins zu eins kopiert sein.

Es wird dabei allerdings unterschieden, ob die identischen Inhalte auf der gleichen, oder auf zwei verschiedenen Webseiten vorkommen. Ein identischer Inhalt auf der gleichen Webseite wird als interner Duplicate Content, und auf verschiedenen Webseiten als externer Duplicate Content bezeichnet.
Das exakte Kopieren von bereits existierenden Inhalten wird sofort von einem Duplicated Content Checker entdeckt und angezeigt. Bei teilweise ├╝bereinstimmenden Passagen ist das Entdecken schon etwas schwieriger und wird bei einer ├ťberpr├╝fung nicht immer sofort erkannt.

 

Aktivieren Sie JavaScript um das Video zu sehen.
Video-Link: https://www.youtube.com/watch?v=oF50FAu0RqM

Ab wann handelt es sich um einen kopierten Inhalt?

Nicht jeder Inhalt, den es bereits gibt, gilt sofort als Kopie. Deshalb ist es f├╝r viele wichtig zu wissen, ab wann Google einen Inhalt als Kopie sieht. Deshalb werden Zitate oder zitierte Zeilen eines Textes bei Google nicht als kopierter Inhalt gewertet. Diese m├╝ssen allerdings im Quellcode richtig gekennzeichnet sein.

Bei identischen Metadaten, werden Inhalte von Google bereits als kopierte Inhalte erkannt.
Werden identische Inhalte auf mehreren URLs einer Domain festgestellt, so z├Ąhlt dies ebenso als Duplicate Content. Um als Duplikat zu gelten, reichen hierbei – wie erw├Ąhnt – schon gr├Â├čere ├╝bereinstimmende Teile des gleichen Inhalts aus.

Wie Suchmaschinen einen kopierten Inhalt automatisch erkennen

F├╝r die Erkennung doppelter Inhalte setzen Suchmaschinen wie Google einen speziellen Algorithmus ein. Zu diesem Zweck wird sehr h├Ąufig der sogenannte “Shingle Algorithmus” verwendet. Der zu ├╝berpr├╝fende Text wird in einzelne Cluster (oder eben Shingles) eingeteilt und anschlie├čend mit anderen bereits existierenden Texten verglichen.
Das sieht folgenderma├čen aus:

Originaltext: “Winterliche Bekleidung f├╝r Herren in Blau”

  • “Winterliche Bekleidung f├╝r”
  • “Bekleidung f├╝r Herren”
  • “f├╝r Herren in”
  • “Herren in Blau”

Duplicate Content: “Sch├Âne Bekleidung f├╝r Herren in Schwarz”

  • “Sch├Âne Bekleidung f├╝r”
  • “Bekleidung f├╝r Herren”
  • “f├╝r Herren in”
  • “Herren in Schwarz”

Wie zu sehen ist, sind zwei von vier Shingles identisch. Der S├Ątze gleichen sich zu 50 Prozent und haben einen sehr hohen Gleichungsanteil.

Wichtig ist in diesem Kontext: Meistens erstellen Websitebetreiber nicht absichtlich doppelte Inhalte. Das hei├čt aber nicht, dass es doppelte Inhalte im Web nur selten vorkommen. Man kann davon ausgehen, dass bis zu 29% der Web-Inhalte tats├Ąchlich um doppelten Content sind!

Wieso sollte man sich mit Duplicate Content n├Ąher auseinandersetzen?

Es gibt so viele Mythen ├╝ber doppelte Inhalte. Verbreitet ist etwa die Ansicht, dass Duplicate Content eine Strafe (Penalty) von Google nach sich zieht, zudem wird unterstellt, dass unterschiedliche Seiten in Konkurrenz treten und ihrer Website Schaden zuf├╝gen. Aus Forenbeitr├Ągen, Reddit-Threads und sogar auch SEO-Nachrichten wird ersichtlich, dass viele Nutzer nicht wissen, wie Google mit doppelten Inhalten umgeht.

Welche Probleme k├Ânnen mit Duplicate Content entstehen?

Doppelte Inhalte verwirren Google und zwingen die Suchmaschine, auszuw├Ąhlen, welche der identischen Seiten in den Top-Ergebnissen aufgef├╝hrt werden soll und welche nicht. Unabh├Ąngig davon, wer den Inhalt erstellt hat, besteht eine hohe Wahrscheinlichkeit, dass die Originalseite nicht diejenige ist, die f├╝r die Top-Suchergebnisse ausgew├Ąhlt wurde.

Gr├╝nde f├╝r Duplicate Content

Schauen wir uns einige der h├Ąufigsten Wege an, auf denen doppelte Inhalte unbeabsichtigt erstellt werden:

1. URL-Variationen

URL-Parameter wie Klickverfolgung und einige Analysecodes k├Ânnen zu Problemen mit doppeltem Inhalt f├╝hren. Dies kann ein Problem sein, das nicht nur durch die Parameter selbst verursacht wird, sondern auch durch die Reihenfolge, in der diese Parameter in der URL selbst angezeigt werden. Beispiele f├╝r unterschiedliche URL-Parameter sind etwa:

  • www.example.com/index.php?a=1&b=2
  • www.example.com/index.php?b=2&a=1

In ├Ąhnlicher Weise sind Sitzungs-IDs ein h├Ąufiger Grund von doppelten Inhalten. Dies geschieht, wenn jedem Website-Besucher eine andere Sitzungs-ID zugewiesen wird, und diese in der URL gespeichert wird. Sitzungs-IDs oder -Parameter k├Ânnen also Duplicate Content erstellen, auch druckerfreundliche Aufbereitungen von Inhalten k├Ânnen zu Problemen mit doppelten Inhalten f├╝hren, eben dann, wenn mehrere Versionen der Seiten indiziert werden.

Zusammenfassend ist also zu sagen, dass das Hinzuf├╝gen von URL-Parametern oder alternativen Versionen von URLs zu vermeiden ist, zumal die darin enthaltenen Informationen normalerweise ├╝ber Skripte ├╝bertragen werden k├Ânnen.

2. HTTP vs. HTTPS oder WWW vs. Nicht-WWW-Seiten

Existierende Websites mit demselben Inhalt unter “www.example.com” und “example.com” (also mit und ohne Pr├Ąfix “www”), haben Sie effektiv Duplicate Content von jeder dieser Site-Versionen. ├ähnliches gilt f├╝r Websites, die Versionen sowohl unter http: // als auch unter https: // verwalten. Wenn beide Versionen einer Seite live sind und f├╝r Suchmaschinen sichtbar sind, sind Probleme mit doppelten Inhalten mitunter die Folge.

Duplicate Content vermeiden

Das Beheben oder Vermeiden von Problemen mit doppelten Inhalten f├╝hrt immer auf diesen kleinsten gemeinsamen Nenner: Festlegen, welches der doppelten Inhalte der “richtige” ist.

Wenn Inhalte auf einer Website unter mehreren URLs gefunden werden k├Ânnen, sollten diese f├╝r Suchmaschinen kanonisiert werden. Hierf├╝r existieren diese drei M├Âglichkeiten:

  • Verwenden einer 301-Umleitung zur richtigen URL
  • Verwenden des Attributs rel = canonical
  • der Einsatz des Tools zur Parameterbehandlung in der Google Search Console.

301 umleiten

In vielen F├Ąllen liegt der beste Weg zur Duplicate-Content-Vermeidung in der Einrichtung einer 301-Umleitung: Eben von der “doppelten” Seite zum urspr├╝nglichen Inhalt.

Hierdurch werden im Grunde mehrere Seiten mit einem guten Ranking-Potenzialen zu einer einzigen Seite zusammengefasst┬á und sie konkurrieren nicht mehr miteinander. Zudem erzeugen Sie dadurch auch st├Ąrkere Relevanz- und Beliebtheitssignale. Dies st├Ąrkt die F├Ąhigkeit der “richtigen” Seite, ein gutes Ranking zu erzielen.

rel=”canonical”

Eine weitere Option f├╝r den Umgang mit doppelten Inhalten ist die Verwendung des Attributs rel = canonical. Dies teilt Suchmaschinen direkt mit, dass eine bestimmte Seite so behandelt werden soll, als w├Ąre sie eine Kopie einer angegebenen URL; alle Links, Inhaltsmetriken und die verbundene “Ranking Power”, welche Suchmaschinen auf diese Seite anwenden, werden der tats├Ąchlich angegebenen URL “gutgeschrieben”.

Praktisch sieht das dann so aus: Das Attribut rel = “canonical” ist Teil des Head-Elementes einer Webseite und sieht folgenderma├čen aus:

<link rel=ÔÇťcanonicalÔÇťhref=ÔÇťhttp://www.example.de/examplepage.htm”>

Das Attribut rel=canonical sollte dem HTML-Head-Element einer jeder “duplizierten” Seiten-Version hinzugef├╝gt werden, wobei der Abschnitt ÔÇťhttp://www.example.de/examplepage.htm” oben durch einen Link zur urspr├╝nglichen (kanonischen) Seite ersetzt wird. (Stellen Sie hierbei sicher, dass Sie die Anf├╝hrungszeichen beibehalten.) Das Attribut ├╝bergibt ungef├Ąhr die gleiche Menge an Link-Kapital (Ranking-Leistung) wie eine 301-Umleitung und ben├Âtigt h├Ąufig weniger Entwicklungszeit, da es auf Seitenebene implementiert wird.

Verwenden von MozBar zum Identifizieren kanonischer Attribute.

Hier k├Ânnen wir sehen, dass BuzzFeed die Attribute rel = canonical verwendet, um die Verwendung von URL-Parametern zu ber├╝cksichtigen (in diesem Fall klicken Sie auf Tracking). Obwohl auf diese Seite ├╝ber zwei URLs zugegriffen werden kann, garantiert das Attribut rel = canonical, dass alle Link-Equity- und Inhaltsmetriken der urspr├╝nglichen Seite zugewiesen werden.

Meta Robots Noindex

Ein Meta-Tag, welcher beim Handling von doppelten Inhalten n├╝tzlich sein kann, ist Meta Robots. N├Ąmlich dann, wenn sie mit den Werten “noindex, follow” verwendet werden. Dieses Meta-Robots-Tag wird allgemein als Meta-Noindex,Follow bezeichnet und ist technisch als content=”noindex,follow” bekannt. Es kann dem HTML-Head-Element jeder einzelnen Seite hinzugef├╝gt werden, welche aus dem Index einer Suchmaschine ausgeschlossen werden sollen.

Mit dem Meta-Robots-Tag k├Ânnen Suchmaschinen die Links auf einer Seite crawlen, ohne jedoch diese Links in ihre Indizes aufzunehmen. Wichtig ist, dass der Duplicate Content weiterhin auch ohne Indizierung gecrawlt werden kann. Google warnt n├Ąmlich ausdr├╝cklich davor, den Crawling-Zugriff auf doppelte Website-Inhalte einzuschr├Ąnken. (Suchmaschinen m├Âchten prinzipiell alles sehen,┬á etwa wenn Sie einen Fehler in Ihrem Code gemacht haben. Dadurch k├Ânnen sie in ansonsten mehrdeutigen Situationen einen [wahrscheinlich automatisierten] “judgment call” t├Ątigen.)

Die Verwendung von Meta robots ist eine besonders gute Problem-L├Âsung bei doppelten Inhalt im Zusammenhang mit der Paginierung.

Bevorzugte Domain- und Parameterbehandlung in der Google Search Console

Mit der Google Search Console k├Ânnen Sie die bevorzugte Domain Ihrer Website festlegen (zum Beispiel http://example.com anstelle von http://www.example.com) und angeben, ob der Googlebot verschiedene URL-Parameter unterschiedlich crawlen soll (Parameterbehandlung) oder nicht.

Abh├Ąngig von Ihrer URL-Struktur und der Ursache Ihrer Probleme mit doppelten Inhalten kann das Einrichten Ihrer bevorzugten Domain- oder Parameterbehandlung (oder beides!) eine L├Âsung bieten.

Der Hauptnachteil bei der Verwendung der Parameterbehandlung als prim├Ąre Methode f├╝r den Umgang mit doppelten Inhalten besteht darin, dass die von Ihnen vorgenommenen ├änderungen nur f├╝r Google funktionieren. Die mit der Google Search Console festgelegten Regeln haben keinen Einfluss darauf, wie Bing oder die Crawler anderer Suchmaschinen Ihre Website interpretieren. Sie m├╝ssen also zus├Ątzlich die Webmaster-Tools anderer Suchmaschinen verwenden und die Einstellungen in der Search Console anpassen.

Relevanz im SEO

Offiziell verh├Ąngt Google keine Strafe f├╝r doppelte Inhalte. Es werden jedoch identische Inhalte gefiltert und eben dies hat die gleiche Auswirkung wie eine Strafe: ein Ranking-Verlust f├╝r Ihre Webseiten.

Duplicate Content verhindert also, dass all Ihre Seiten in den Suchergebnissen (oben) rangieren. Google nimmt Hinweise von den Seiten in seinen Index und zeigt in allen F├Ąllen dann nur die relevanteste Seite f├╝r die Suchanfrage an. Mit doppelten Inhalten schw├Ąchen Sie Ihre Ranking Power und damit zusammenh├Ąngend auch Ihr Linkprofil, wenn sich identische Inhalte an zwei oder mehreren Stellen auf Ihrer eigenen Website befinden. Haben Sie also eine starke Seite mit gutem Inhalt und hochwertigen Backlinks, ist es ratsam, diese thematisch nicht einfach zu duplizieren.Die Gefahr besteht, dass eben nicht die Originalseite von Google indiziert wird.

Tipp

Die OSG Performance Suite stellt eine zentrale Verwaltung f├╝r Ihre SEO-Texte und Backlinks dar. Zur Abstimmung im Team k├Ânnen die Links und Texte jederzeit von Ihnen und Ihren Partnern kommentiert werden. Die Performance Suite bietet Ihnen eine vollst├Ąndige ├ťbersicht ├╝ber Ihre Texte und pr├╝ft stetig die Rankings und OnPage Werte f├╝r Ihre Texte. Des Weiteren empfehlen wir Ihnen sich unsere Blogbeitr├Ąge zum Thema Duplicate Content anzuschauen, wo wir Ihnen praktische Tipps und Informationen zur Vermeidung von Duplicate Content vorstellen.

Sie k├Ânnen sich auch gerne einen kostenlosen Account in unserer Performance Suite erstellen und von den Features profitieren!

Kostenlosen Account erstellen

FAQ

Was bedeutet Duplicate Content im SEO?

Bei doppelten Inhalten handelt es sich um Content, welcher im Internet an mehr als einer Stelle erscheint. Wenn es mehrere Teile von offenkundig ├Ąhnlichem (wie Google es nennt) an mehr als einer Stelle im Internet gibt, kann es f├╝r Suchmaschinen schwierig sein zu entscheiden, welche Version f├╝r eine bestimmte Suchanfrage relevanter ist.

Bestraft Google Duplicate Content?

Das Duplizieren von Inhalten f├╝hrt nicht zu einer Bestrafung Ihrer Website. Google will aber den Nutzern Vielfalt in den Suchergebnissen bieten und eben nicht immer den gleichen Artikel. Daher zeigt Google nur eine Version in den Suchergebnisseiten an. Doppelte Inhalte k├Ânnen dabei durch entsprechende Hinweise im HTML-Code als solche f├╝r Google sichtbar gemacht werden. Prinzipiell ist Duplicate Content kein Grund zum Handeln, es sei denn, die Suchergebnisse werden von Betreibern konkurrierender Websites mutwillig manipuliert.

Wie pr├╝ft man im SEO auf doppelte Inhalte?

Eines der bekanntesten Tools f├╝r doppelte Inhalte ist wahrscheinlich CopyScape.com. Dieses Tool funktioniert recht einfach: F├╝gen Sie einen Link in das Feld auf der Startseite ein, und CopyScape liefert eine Reihe von Ergebnissen, die in etwa denen der Suchergebnisseiten von Google ├Ąhneln.

Wie viel Duplicate Content ist akzeptabel?

Eine gute Faustregel lautet: Wenn Sie viele Seiten haben, die - abgesehen von einem oder zwei Seiten-Elementen - doppelt aussehen, dann sollten diese Seiten wahrscheinlich zu einer aussagekr├Ąftigen Seite zusammengefasst werden.

Was ist Kanonisierung in der SEO?

Mit dem Canonical Tag (auch bekannt als rel canonical) teilen Sie Suchmaschinen mit, dass eine bestimmte URL die duplizierte Version einer Seite darstellt. Canonical Tags verhindern dadurch Probleme, welche durch identische Inhalte, die unter unterschiedlichen URLs erscheinen, verursacht werden.

Fazit

Duplicate Content stellt ein sehr gro├čes Problem f├╝r den SEO-Bereich dar. Die Rankings durch Google werden dadurch negativ beeinflusst. Die eigene Webseite sollte deshalb gesch├╝tzt werden, folgende Punkte sind daf├╝r relevant:

  • Ein Abschreiben der Inhalte von anderen Webseiten sollte unterlassen werden!
  • Auch das Ver├Âffentlichen von doppelten Inhalten auf der eigenen Webseite ist nicht empfehlenswert!
  • Es empfiehlt sich daher, die eigene Webseite immer wieder auf kopierte Inhalte zu ├╝berpr├╝fen!

Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte