Ein krasses Beispiel für Duplicate Content – oder: Man kann niemals genug Domains haben

Mittwoch 30. Juni 2010 von Markus

Ich liebe ja die SEOmoz Site Intelligence API. Ein sehr guter Weg, um sehr effizient hervorragende Informationen bzgl. Links zu bekommen.

Leider ist die API nicht immer besonders gut darin, Duplicate Content zu erkennen. Yahoo! übrigens auch nicht. Deswegen haben wir in unsere Links jetzt noch einen Dubletten-Filter eingebaut, der anhand bestimmter Heuristiken doppelte Sites erkennt und die Dubletten herausnimmt. Ansonsten wären die errechneten Werte für Domain-Popularität und so vielleicht falsch.

Dabei habe ich ein sehr gutes Beispiel für Duplicate Content gefunden. Die Zahlen neben den Domains geben die Domain-Popularität laut SEOmoz an (Parameter “uipl”: The number of root domains with any pages linking to the url). Die Websites haben alle den exakt selben Content:

  • www.allberlintour.de -> 21
  • www.allberlintours.de -> 38
  • www.berlin-sightseeing-tour.de -> 27
  • www.berlin-sightseeing-tours.de -> 86
  • www.berlin-stadtfuehrung.de -> 351
  • www.berlin-stadtfuehrungen.de -> 61
  • www.berlin-stadtrundfahrt-net.de -> 22
  • www.berlin-stadtrundfahrt-online.de -> 40
  • www.berlin-stadtrundfahrt-web.de -> 0
  • www.berlin-stadtrundfahrt.com -> 59
  • www.berlin-stadtrundgang.de -> 23
  • www.berlin-tourist-guide.de -> 26
  • www.berlin-touristen-information.de -> 35
  • www.reise-leitung.de -> 0
  • www.tourist-planet.de -> 22
  • www.touristworld.de -> 23
  • www.toursberlin.de -> 22

Unsere Software wählt dann einfach die Domain mit dem höchsten Wert als Stellvertreter; die anderen wandern in die virtuelle Tonne. Nicht immer 100%, aber in der Praxis funktioniert’s.

Ich würde mir wirklich wünschen, wenn zumindest SEOmoz Dubletten besser erkennen würde. Das würde uns einiges ersparen.

Interessant ist hier aber auch zu sehen, wie Google mit den Dubletten umgeht. Verräterisch ist eigentlich immer das site-Kommando für eine Dubletten-Domain:

Bild

Oder eine andere Dubletten-Domain aus der Liste:

Bild

In beiden Fällen fehlt die Startseite. Bei der “Haupt-Domain” gibt’s die aber:

Bild

Das Ganze ist leider kein hundertprozentiges Indiz, funktioniert aber recht oft.

Das beste Indiz liefert dann aber die info-Abfrage:

Bild

Also: Hier ist sich Google sicher, dass www.allberlintour.de == www.berlin-stadtfuehrung.de. Auch wenn unsere Kunden meist keine so krassen Domain-Ansammlungen haben, ist das hier mit ein Grund, warum unser Tool SEO Safeguard regelmäßig beides checkt:

  1. Zeigt das site-Kommando als erstes die Startseite an?
  2. Zeigt das info-Kommando auch dieselbe Domain an?

In diesem Sinne. Immer sauber bleiben :)


Markus Hövener ist geschäftsführender Gesellschafter der SEO-/SEM-Agentur Bloofusion und Chefredakteur des Magazins suchradar.

Alle Posts von | @bloonatic bei Twitter folgen

Dieser Beitrag wurde erstellt am Mittwoch 30. Juni 2010 um 14:50 und abgelegt unter SEO. Kommentare zu diesen Eintrag im RSS 2.0 Feed. Sie können einen Kommentar schreiben, oder einen Trackback auf Ihrer Seite einrichten.

3 Kommentare über “Ein krasses Beispiel für Duplicate Content – oder: Man kann niemals genug Domains haben”

  1. PriesterathNo Gravatar schrieb:

    Als weiteres Indiz könnte man auch noch die Server-IP heranziehen. Häufig liegen solche Domainsammlungen auf ein und demselben Server. Die Mühe mehrere Server mit DC zu füttern, machen sich die wenigsten.

  2. MarkusNo Gravatar schrieb:

    Ist ein Indiz, aber bei unseren Tests hat dieses Kriterium leider total versagt. Zu oft liegt das alles auf unterschiedlichen IPs, manchmal sogar außerhalb eines Class C.

  3. The TravellerNo Gravatar schrieb:

    Oh ha – Arme Nummer komplette Webseitenkopien online zu stellen…

Kommentar schreiben