Aus der Praxis: Seiten blocken über HTTP-Header
Dienstag 3. Juli 2012 von Markus
Ein Link-Tool von uns hat eben die Seite http://www.spiegel.de/wikipedia/Schwab-Versand.html als Potenzial gefunden. Eine Seite, die immerhin einen Dofollow-Link auf www.schwab.de enthält:
Unser Tool prüft die ganz normalen Möglichkeiten, mit denen man einen Link entwerten kann, damit uns solche Potenziale gar nicht erst angezeigt werden:
- Link ist Nofollow
- Seite hat Robots-Meta-Tag Noindex bzw. Nofollow
- Seite ist in robots.txt gesperrt
Alles ist bei der Seite nicht der Fall -aber im Index ist sie trotzdem nicht:
Im /wikipedia/-Verzeichnis gibt es sehr viele Dokumente, aber keines davon ist im Index vertreten. Also wie sperrt man denn Seiten, ohne die üblichen Methoden zu benutzen?
Der Blick in den HTTP-Header verrät’s:
Leider nur wird diese Direktive wohl nicht von allen Link-Datenbanken korrekt berücksichtigt, denn mind. eine muss diese URL geliefert haben.
Also: Wir basteln das gleich noch schnell in unser Tool rein. Ich frage mich nur, warum man das Sperren von Inhalten so machen sollte. Insbesondere wenn man dann Gefahr läuft, dass nicht alle Crawler das verstehen (Google + Bing interpretieren das aber richtig).
Aber das wird nur Spiegel.de wissen…
Markus
Markus Hövener ist geschäftsführender Gesellschafter der SEO-/SEM-Agentur Bloofusion und Chefredakteur des Magazins suchradar.
Alle Posts von Markus | @bloonatic bei Twitter folgen
Dieser Beitrag wurde erstellt am Dienstag 3. Juli 2012 um 13:34 und abgelegt unter SEO. Kommentare zu diesen Eintrag im RSS 2.0 Feed. Sie können einen Kommentar schreiben, oder einen Trackback auf Ihrer Seite einrichten.






Dienstag 3. Juli 2012 um 19:01
Den X-Robots Tag verwendet man wenn man PDF Dateien oder ähnliches nicht im Index haben möchte. Es ist bei einzelnen Dateien einfacher den Header zu manipulieren als alles in die robots.txt zu schreiben.
Seit 2007 wird dieser übrigends schon unterstützt http://googleblog.blogspot.de/2007/07/robots-exclusion-protocol-now-with-even.html
Dienstag 3. Juli 2012 um 21:22
Damit der Spider die Seite nur lädt, wenn er sie wirklich haben will? Dann braucht er nur den Head zu laden und kann das Laden des HTMLs sparen. In großer Skalierung macht sich das dann richtig bemerkbar. Google hatte vor ca. 2 Jahren noch mal betont, dass sie das X-Robots noindex verstehen. Allerdings dürfte der Link, den Ihr dargestellt habt dennoch eventuell was bringen. Bei X-Robots wird AFAIK nur gewertet, wenn 1 Attribut vorhanden ist. Wenn mehr genannt sind wird allerdings eventuell das 1 gewertet. Nofollow, Noarchive dürften AFAIK nicht beachtet werden.
Hab jetzt aber nicht noch mal in die Specs geschaut, was die Standards dazu sagen.
Mittwoch 4. Juli 2012 um 07:46
Ach ja: Und wie Jens schrieb (dessen Kommentar ich gestern Abend leider nicht gesehen hab…) für:
* JS, swf, PDF, xls, css, png, bmp, xml und alles andere, was mir so auf dem Server rumliegt, kein HTML ist und nicht in den Index soll, beziehungsweise mit einer der anderen üblichen RObots-Anweisungen behandelt werden soll.
Mittwoch 4. Juli 2012 um 07:48
Danke für den Input. Grundsätzlich nutzen wir dafür immer die robots.txt, aber dadurch verhindere ich ja nicht unbedingt die Indexierung…
Mittwoch 4. Juli 2012 um 12:47
Vielen Dank für diese Auflösung. Ich hatte mir erst vor ein paar Tagen notiert, dass ich bei Gelegenheit mal prüfen muss, wie die Indexierung des Wikipedia-Clons auf SpOn verhindert wird.
Donnerstag 5. Juli 2012 um 08:15
@Johan: Nein, eigentlich sollte bei den X-Robots Zeile auch mehr als nur eine Angabe unterstützt werden können.
vgl: https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
Es können sogar explizit einzelne Bots angesprochen werden – so sie denn die X-Robots berücksichtigen. Das habe ich allerdings noch nie in freier Wildbahn gesehen
Freitag 6. Juli 2012 um 07:33
@Chris:
Danke für den Hinweis. Hab im Hinterkopf noch irgendwie, dass es mit mehreren Probleme gab. Bin mir aber nicht sicher, ob das Spec war, oder nur ignoriert wurde, oder Jemand einen blöden Test gemacht hatte. Vielleicht funzt das ja inzwischen. Hat mich damals schon irritiert, weil’s inkonsequent wäre…