Ein krasses Beispiel für Duplicate Content – oder: Man kann niemals genug Domains haben
Mittwoch 30. Juni 2010 von Markus
Ich liebe ja die SEOmoz Site Intelligence API. Ein sehr guter Weg, um sehr effizient hervorragende Informationen bzgl. Links zu bekommen.
Leider ist die API nicht immer besonders gut darin, Duplicate Content zu erkennen. Yahoo! übrigens auch nicht. Deswegen haben wir in unsere Links jetzt noch einen Dubletten-Filter eingebaut, der anhand bestimmter Heuristiken doppelte Sites erkennt und die Dubletten herausnimmt. Ansonsten wären die errechneten Werte für Domain-Popularität und so vielleicht falsch.
Dabei habe ich ein sehr gutes Beispiel für Duplicate Content gefunden. Die Zahlen neben den Domains geben die Domain-Popularität laut SEOmoz an (Parameter “uipl”: The number of root domains with any pages linking to the url). Die Websites haben alle den exakt selben Content:
- www.allberlintour.de -> 21
- www.allberlintours.de -> 38
- www.berlin-sightseeing-tour.de -> 27
- www.berlin-sightseeing-tours.de -> 86
- www.berlin-stadtfuehrung.de -> 351
- www.berlin-stadtfuehrungen.de -> 61
- www.berlin-stadtrundfahrt-net.de -> 22
- www.berlin-stadtrundfahrt-online.de -> 40
- www.berlin-stadtrundfahrt-web.de -> 0
- www.berlin-stadtrundfahrt.com -> 59
- www.berlin-stadtrundgang.de -> 23
- www.berlin-tourist-guide.de -> 26
- www.berlin-touristen-information.de -> 35
- www.reise-leitung.de -> 0
- www.tourist-planet.de -> 22
- www.touristworld.de -> 23
- www.toursberlin.de -> 22
Unsere Software wählt dann einfach die Domain mit dem höchsten Wert als Stellvertreter; die anderen wandern in die virtuelle Tonne. Nicht immer 100%, aber in der Praxis funktioniert’s.
Ich würde mir wirklich wünschen, wenn zumindest SEOmoz Dubletten besser erkennen würde. Das würde uns einiges ersparen.
Interessant ist hier aber auch zu sehen, wie Google mit den Dubletten umgeht. Verräterisch ist eigentlich immer das site-Kommando für eine Dubletten-Domain:
Oder eine andere Dubletten-Domain aus der Liste:
In beiden Fällen fehlt die Startseite. Bei der “Haupt-Domain” gibt’s die aber:
Das Ganze ist leider kein hundertprozentiges Indiz, funktioniert aber recht oft.
Das beste Indiz liefert dann aber die info-Abfrage:
Also: Hier ist sich Google sicher, dass www.allberlintour.de == www.berlin-stadtfuehrung.de. Auch wenn unsere Kunden meist keine so krassen Domain-Ansammlungen haben, ist das hier mit ein Grund, warum unser Tool SEO Safeguard regelmäßig beides checkt:
- Zeigt das site-Kommando als erstes die Startseite an?
- Zeigt das info-Kommando auch dieselbe Domain an?
In diesem Sinne. Immer sauber bleiben
Markus
Markus Hövener ist geschäftsführender Gesellschafter der SEO-/SEM-Agentur Bloofusion und Chefredakteur des Magazins suchradar.
Alle Posts von Markus | @bloonatic bei Twitter folgen
Dieser Beitrag wurde erstellt am Mittwoch 30. Juni 2010 um 14:50 und abgelegt unter SEO. Kommentare zu diesen Eintrag im RSS 2.0 Feed. Sie können einen Kommentar schreiben, oder einen Trackback auf Ihrer Seite einrichten.







Freitag 2. Juli 2010 um 10:00
Als weiteres Indiz könnte man auch noch die Server-IP heranziehen. Häufig liegen solche Domainsammlungen auf ein und demselben Server. Die Mühe mehrere Server mit DC zu füttern, machen sich die wenigsten.
Freitag 2. Juli 2010 um 10:10
Ist ein Indiz, aber bei unseren Tests hat dieses Kriterium leider total versagt. Zu oft liegt das alles auf unterschiedlichen IPs, manchmal sogar außerhalb eines Class C.
Mittwoch 21. Juli 2010 um 20:32
Oh ha – Arme Nummer komplette Webseitenkopien online zu stellen…