Duplicate Content finden und beseitigen

von Martin OnPage SEO Suchmaschinenoptimierung

Inhaltsverzeichnis

Seit den letzten Algorithmus Updates ist, Laut Google, „Duplicate Content“ für das Ranking und die SEO einer Webseite wesentlich nachteilhafter als zuvor und schadet deiner gesamten Website und nicht nur einzelnen Unterseiten die mit redundanten Inhalten behaftet sind, wie es vor den Updates der Fall war. Dabei kommt es selbstverständlich auf das Ausmaß und den Grad an und nicht auf einzelne Unterseiten wie das Impressum, das auf sehr vielen Webseiten sehr ähnlich oder gleich ist.

Was ist Duplicate Content?

Als Duplicate Content (DC) werden Inhalte bezeichnet die auf mehreren Webseiten vorzufinden sind. Unterschieden wird zwischen internem (gleiche Inhalte unter mehreren URLs auf einer Domain) und externem DC (mehrere Domains mit gleichen oder sehr ähnlichen Inhalten).

Was Duplicate Content nicht ist!

Sollte der Content einer Website in mehreren Sprachversionen vorliegen, z.B. in deutscher und englischer Sprache, so handelt es sich dabei nicht um redundanten Inhalt der von Suchmaschinen nicht im Ranking abgestuft wird. Zitierte Textausschnitte werden ebenfalls nicht als Duplicate Content identifiziert.

So entsteht Duplicate Content

Webseite mit und ohne www. aufrufbar
Gleiche Inhalte unter mehreren Domains erreichbar .de, .com, .net
Gleiche oder sehr ähnliche Produktbeschreibungen in Onlineshops
Produkt-Detailseiten in Onlineshops auch ohne die dazugehörige Kategorie- und/oder Produktseite direkt aufrufbar
Tag Clouds, die komplette Seiten und nicht nur Textausschnitte ausgeben
Vorschautexte auf Kategorie Ebene
Wiederkehrende Textpassagen im Footer
Unterseiten (Verzeichnisse) mit und ohne Slash aufrufbar
Webseiten mit http und https aufrufbar
Content ist mit dargestellter index.php Datei und ohne aufrufbar
Content ist mit Trackingparamenter und Session IDs aufrufbar
Content ist mit Groß und Kleinschreibung aufrufbar
Affiliate IDs für Partner
Gleicher Inhalt über mehrere Filter erreichbar (z.B. bei Filternavigationen)
Content ist über mehrere Ansichten wie beispielsweise durch die Druckansicht erreichbar

Aus Suchmaschinensicht werden redundante Inhalte in größerem Ausmaß einem Betrugsversuch gleichstellt, da sie einerseits wertvolle Ressourcen für die Indexierung weiterer Seiten verbrauchen und zum anderen die Suchmaschinen in ihrem Bestreben das bestmögliche Ergebnis für den User zu finden, behindern.

Das sagt Google zum Thema Duplicate Content

„Google ist sehr darum bemüht, Seiten mit unterschiedlichen Informationen zu indizieren und anzuzeigen. […] Gelegentlich wird Content jedoch bewusst auf verschiedenen Domains dupliziert mit der Absicht, das Ranking bei Suchmaschinen zu beeinflussen oder mehr Zugriffe auf sich zu ziehen. Derart unfaire Verhaltensweisen können zu einer negativen Nutzererfahrung führen, da den Besuchern im Grunde derselbe Content in einer Reihe von Suchergebnissen angezeigt wird.“ – Google Webmaster Tools Hilfe

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

PGlmcmFtZSB0aXRsZT0iSG93IGRvZXMgR29vZ2xlIGhhbmRsZSBkdXBsaWNhdGUgY29udGVudD8iIHdpZHRoPSIxMTcwIiBoZWlnaHQ9IjY1OCIgc3JjPSJodHRwczovL3d3dy55b3V0dWJlLmNvbS9lbWJlZC9tUVpZN0VtamJNQT9mZWF0dXJlPW9lbWJlZCIgZnJhbWVib3JkZXI9IjAiIGFsbG93PSJhY2NlbGVyb21ldGVyOyBhdXRvcGxheTsgY2xpcGJvYXJkLXdyaXRlOyBlbmNyeXB0ZWQtbWVkaWE7IGd5cm9zY29wZTsgcGljdHVyZS1pbi1waWN0dXJlIiBhbGxvd2Z1bGxzY3JlZW4+PC9pZnJhbWU+

Bei einem bestehenden Duplicate Content Problem versucht Google selbst zu identifizieren, welcher Inhalt am relevantesten für eine Suchanfrage ist und gibt dieses Ergebnis in den Suchergebnissen aus. Mit sehr hoher Wahrscheinlichkeit wird dabei auch das Indexierungsdatum bzw. das Erstellungsdatum berücksichtig, soweit vorhanden. In diesem Falle liegt es nahe, dass ältere redundante Inhalte einen Vorteil im Ranking haben. Zu einer professionellen SEO-Analyse gehört es deshalb immer einen Duplicate Content Check durchzuführen, mit entsprechender Software.

Redundante Inhalte findest Du mit SEO-Software wie

Sistrix Optimizer
OnPage.org
plagiatefinder.de

Die ersten zwei SEO-Software führen automatisierte Webseitenanalysen durch die relevanten SEO-Fehler wie Duplicate Content automatisch erkennen und durch konkrete Verbesserungsvorschläge ergänzen. “DC-Fehler” sollten am besten detailliert für jede einzelne URL dargestellt werden. Das funktioniert mit dem OnPage.org SEO-Tool, das wie der Name schon verrät, auf die OnPage Analyse spezialisiert ist.

Duplicate Content finden mit OnPage.org

So sieht es dann im Detail aus

Redundante Inhalte und ihre Folgen

Zu viele redundante Inhalte (intern als auch extern) können der Grund sein, dass deine Unterseiten nicht indexiert werden oder sehr weit hinten in den Suchergebnissen erscheinen. Auch verursachen sie in der Regel Rankingschwankungen, vor allem bei Keywords mit mittlerer und hoher Konkurrenz. Deshalb es dringend empfehlenswert redundante Inhalte soweit zu modifizieren, damit diese als „einzigartig“ eingestuft werden.

Dabei reicht es auch nicht aus einzelne Formulierungen, Absätze oder den Satzbau leicht zu verändern, da Suchmaschinen mittlerweile auch ähnliche Inhalte (near duplicate content) erkennen können und diese ab einer gewissen Übereinstimmung trotzdem als Duplicate Content einstufen und damit das Ranking der gesamten Seite negativ beeinflussen.

Redundanz führt zwar nicht immer zu einer Abstrafung seitens Suchmaschinen, sollten jedoch deine Rankings oft schwanken oder der Sichtbarkeitsindex sinken, solltest du einen genauen Blick auf deine Inhalte werfen und häufige Redundanzen beseitigen.

Die Lösung für Duplicate Content

1. Textbroker

Wenn du einen großen Onlineshop mit tausenden Produkten hast, kannst du Textaufträge auf einer der bekannten Textbroker Plattformen wie www.content.de & www.textbroker.de in Auftrag geben. Dort kannst du neue Texte verfassen lassen, vorhandene Texte umformulieren lassen, Texte übersetzen und lektorieren lassen und vieles mehr. In der Regel führen diese Textbroker einen Plagiate Check durch bevor ein Text freigegeben wird. Zur Sicherheit solltest du vor Annahme des Textes, diesen trotzdem mal durch den Plagiatefinder.de laufen lassen.

2. Canonical Tags mit absoluten URLs als Zwischenlösung

Als Zwischenlösung bis alle redundanten Beschreibungen umformuliert sind, eignet sich auch der Einsatz des Canonical Tags. Mit diesem Tag können sehr ähnliche Seiten auf einer bevorzugten bzw. repräsentativen URL verweisen die durch Suchmaschinen indexiert werden darf.

Mit Canonical Tags haben Webseitenbetreiber also die Möglichkeit mitzubestimmen, welche Seiten in den Suchergebnissen erscheinen sollen und welche nicht. Es lässt sich damit ganz gut steuern, welche Seiten als Originalquelle in den Suchergebnissen aufgenommen werden sollen. Idealerweise wird das Canonical Tag mit einer absoluten URL in den <head>-Bereich von Webseiten eingeführt. Anderenfalls kann es passieren, dass Google und weitere Suchmaschinen dieses Tag nicht beachten.

<link rel="canonical" href="https://www.onlineshop.de/kategorie/produkt"/>

3. Paginierte Seiten auf Kategorie Ebene auf noindex, follow setzen

Eine häufige Ursache für redundante Inhalte und Meta-Daten sind paginierte Seiten. Deshalb ist es empfehlenswert auf Kategorie Ebene ab Seite 2 oder 3 ein „noindex, follow“-Tag einzufügen.

<meta name="robots" content="noindex,follow"/>

Damit verhinderst Du die Aufnahme der entsprechenden Seiten in den Suchmaschinenindex, da auf Kategorie Ebene ab Seite 2 in der Regel keine neuen und einzigartigen Inhalte vorzufinden sind. Gleichzeitig wird mit dem “follow”-Attribut Suchmaschinen das Folgen der Links erlaubt, damit Produkte weiterhin gefunden können und die interne Linkkraft verteilt werden kann.

Das Canonical Tag sollte auf diesen allen Seiten, die mit einem noindex versehen sind, entfernt werden, damit keine Linkpower verschenkt wird. Des Weiteren ist die Kombination von „noindex“, „disallow“ und/oder „nofollow“- Tags und kanonischen URLs von Google ausdrücklich nicht erwünscht und kann zur Indexierungsproblemen führen.

4. Domain-Umleitung in der .htaccess (ModRewrite)

Mit folgenden Eintrag in der .htaccess Datei kannst du eine Domain ohne www auf die Domain mit www umleiten:

RewriteEngine on

RewriteCond %{HTTP_HOST} ^deineseite.de

RewriteRule ^(.*)$ https://deineseite.de$1 [R=301,L]

oder auch ohne www:

RewriteEngine on

RewriteCond %{HTTP_HOST} ^www.deineseite.de

RewriteRule ^(.*)$ http://deineseite.de$1 [R=301,L]

5. Google Search Console analysieren (ehemals Webmaster Tools)

Die Search Console von Google ist eine optimale und kostenfreie Möglichkeit, den Überblick über die Indexierung deiner Webseite zu behalten und redundante Meta-Daten aufzudecken. Dort kannst Du Google unter anderem mitteilen, wie eine Domain indexiert werden soll und wie mit verschiedenen URL-Parametern umgegangen werden soll, die eine häufige Ursache für Duplicate Content sind.

Weitere Infos zum Thema Duplicate Content findest du auch im Sistrix Blog:

https://www.sistrix.de/frag-sistrix/onpage-optimierung/duplicate-content/

Wenn Dir dieser Betrag gefallen hat, darfst du ihnen gerne mit deiner Community auf Social Media teilen :). Wenn Du noch offene Fragen oder ergänzende Tipps zum Thema Duplicate Content hast, dann kannst Du mir gerne auch deinen Kommentar hinterlassen oder mich direkt kontaktieren. Ich antworte Dir so schnell wie möglich.

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website
Zweck	Speichert die Einstellungen der Besucher, die in der Cookie Box von Borlabs Cookie ausgewählt wurden.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Cookie von Google für Website-Analysen. Erzeugt statistische Daten darüber, wie der Besucher die Website nutzt.
Datenschutzerklärung	https://policies.google.com/privacy
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren
Name	GA4
Anbieter	Google Analytics

Akzeptieren
Name	Facebook
Anbieter	Facebook
Zweck	Wird verwendet, um Facebook-Inhalte zu entsperren.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com

Akzeptieren
Name	Google Maps
Anbieter	Google
Zweck	Wird zum Entsperren von Google Maps-Inhalten verwendet.
Datenschutzerklärung	https://policies.google.com/privacy
Host(s)	.google.com
Cookie Name	NID
Cookie Laufzeit	6 Monate

Wie Du Duplicate Content findest und verhinderst

Was ist Duplicate Content?