Aus der Praxis: Seiten blocken über HTTP-Header

Dienstag 3. Juli 2012 von Markus

Ein Link-Tool von uns hat eben die Seite http://www.spiegel.de/wikipedia/Schwab-Versand.html als Potenzial gefunden. Eine Seite, die immerhin einen Dofollow-Link auf www.schwab.de enthält:

Bild

Unser Tool prüft die ganz normalen Möglichkeiten, mit denen man einen Link entwerten kann, damit uns solche Potenziale gar nicht erst angezeigt werden:

  • Link ist Nofollow
  • Seite hat Robots-Meta-Tag Noindex bzw. Nofollow
  • Seite ist in robots.txt gesperrt

Alles ist bei der Seite nicht der Fall -aber im Index ist sie trotzdem nicht:

Bild

Im /wikipedia/-Verzeichnis gibt es sehr viele Dokumente, aber keines davon ist im Index vertreten. Also wie sperrt man denn Seiten, ohne die üblichen Methoden zu benutzen?

Der Blick in den HTTP-Header verrät’s:

Bild

Leider nur wird diese Direktive wohl nicht von allen Link-Datenbanken korrekt berücksichtigt, denn mind. eine muss diese URL geliefert haben.

Also: Wir basteln das gleich noch schnell in unser Tool rein. Ich frage mich nur, warum man das Sperren von Inhalten so machen sollte. Insbesondere wenn man dann Gefahr läuft, dass nicht alle Crawler das verstehen (Google + Bing interpretieren das aber richtig).

Aber das wird nur Spiegel.de wissen…


Markus Hövener ist geschäftsführender Gesellschafter der SEO-/SEM-Agentur Bloofusion und Chefredakteur des Magazins suchradar.

Alle Posts von | @bloonatic bei Twitter folgen

Dieser Beitrag wurde erstellt am Dienstag 3. Juli 2012 um 13:34 und abgelegt unter SEO. Kommentare zu diesen Eintrag im RSS 2.0 Feed. Sie können einen Kommentar schreiben, oder einen Trackback auf Ihrer Seite einrichten.

7 Kommentare über “Aus der Praxis: Seiten blocken über HTTP-Header”

  1. JensNo Gravatar schrieb:

    Den X-Robots Tag verwendet man wenn man PDF Dateien oder ähnliches nicht im Index haben möchte. Es ist bei einzelnen Dateien einfacher den Header zu manipulieren als alles in die robots.txt zu schreiben.

    Seit 2007 wird dieser übrigends schon unterstützt http://googleblog.blogspot.de/2007/07/robots-exclusion-protocol-now-with-even.html

  2. JohanNo Gravatar schrieb:

    Damit der Spider die Seite nur lädt, wenn er sie wirklich haben will? Dann braucht er nur den Head zu laden und kann das Laden des HTMLs sparen. In großer Skalierung macht sich das dann richtig bemerkbar. Google hatte vor ca. 2 Jahren noch mal betont, dass sie das X-Robots noindex verstehen. Allerdings dürfte der Link, den Ihr dargestellt habt dennoch eventuell was bringen. Bei X-Robots wird AFAIK nur gewertet, wenn 1 Attribut vorhanden ist. Wenn mehr genannt sind wird allerdings eventuell das 1 gewertet. Nofollow, Noarchive dürften AFAIK nicht beachtet werden.

    Hab jetzt aber nicht noch mal in die Specs geschaut, was die Standards dazu sagen.

  3. JohanNo Gravatar schrieb:

    Ach ja: Und wie Jens schrieb (dessen Kommentar ich gestern Abend leider nicht gesehen hab…) für:
    * JS, swf, PDF, xls, css, png, bmp, xml und alles andere, was mir so auf dem Server rumliegt, kein HTML ist und nicht in den Index soll, beziehungsweise mit einer der anderen üblichen RObots-Anweisungen behandelt werden soll.

  4. MarkusNo Gravatar schrieb:

    Danke für den Input. Grundsätzlich nutzen wir dafür immer die robots.txt, aber dadurch verhindere ich ja nicht unbedingt die Indexierung…

  5. MalteNo Gravatar schrieb:

    Vielen Dank für diese Auflösung. Ich hatte mir erst vor ein paar Tagen notiert, dass ich bei Gelegenheit mal prüfen muss, wie die Indexierung des Wikipedia-Clons auf SpOn verhindert wird.

  6. ChrisNo Gravatar schrieb:

    @Johan: Nein, eigentlich sollte bei den X-Robots Zeile auch mehr als nur eine Angabe unterstützt werden können.
    vgl: https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

    Es können sogar explizit einzelne Bots angesprochen werden – so sie denn die X-Robots berücksichtigen. Das habe ich allerdings noch nie in freier Wildbahn gesehen :D

  7. JohanNo Gravatar schrieb:

    @Chris:
    Danke für den Hinweis. Hab im Hinterkopf noch irgendwie, dass es mit mehreren Probleme gab. Bin mir aber nicht sicher, ob das Spec war, oder nur ignoriert wurde, oder Jemand einen blöden Test gemacht hatte. Vielleicht funzt das ja inzwischen. Hat mich damals schon irritiert, weil’s inkonsequent wäre…

Kommentar schreiben