Philipp Klöckner und Bastian Grimm haben auf der SMX einen interessanten Vortrag zum Thema „Crawl-Budget“ gehalten. Hier gibt’s meine Notizen und auch die Links zum Folien-Download.

Philipp Klöckner (Rocket Internet) = Theorie-Teil

Knappheit an Ressourcen erfordert wirtschaftliches Handeln
Crawl Budget beschränkt, weil Crawling auch Google Geld kostet
Budget hängt ab von PageRank, Änderungshäufigkeit, …

Googles Ziele:

  • Vollständiger Index
  • Maximale Aktualität
  • Neue Dokument schnell finden

Priorisieren nach Pareto-Prinzip (80/20) =
Manche Dokument sind wichtiger als andere
Die meisten Dokument sind nutzlos
Also: Nicht alles gleich crawlen/indexieren

Beispiel (Marktplatz-Website):
Nur 0,5% der Seiten haben Umsatz generiert
Erfolg: Sichtbarkeit massiv gestiegen

Berechnen: Sichtbarkeit / Anzahl der indexierten Seiten

Welche Seiten sollte man rausschmeißen?

  • „No Results“-Seiten löschen (leere Seiten)
  • „Thin Pages“ (z. B. Ein einzelner Review auf einer Seite)

Argument: Aber der Longtail ist doch wichtig. Stimmt zwar, aber besser: Gut rankende Seiten erweitern.

Log-File-Analyse durchführen: Schlechte Seiten werden auch nicht gecrawled.

Priorisieren durch Optimierung der internen Verlinkungen. Prinzip: Durchschnittlicher Revenue / Anzahl der internen Links

Quick Wins/Tipps:

  • Standardsortierung auf Übersichtsseiten: Popularität (Top Seller bekommen mehr Links)
  • Neue Produkte auch gut verlinken = schnelle Indizierung
  • Paginierung: mehr Produkte pro Seite (auch gut für Conversions)
  • Evtl. mobile Site für Suchmaschinen sperren (Beispiel: m.ladenzeile.de)
  • Amazon als Beispiel: Google wird eine optimierte Website (z. B. Ohne interne Tracking-Parameter) ausgeliefert

Download der Folien: http://bit.ly/pipsmx2016

Bastian Grimm (Peak Ace) = Praxis-Teil

Download der Folien: http://pa.ag/smxcrawl

Ausgangspunkt: Google Search Console: Ladezeit der HTML-Seiten

Unterschied vs. Crawling und Indexierung: Noindex spart kein Crawl-Budget! Robots.txt verhindert nur das Crawling, aber nicht die Indexierung.

Seine Meinung: In der Praxis ist das Robots-Meta-Tag die bessere Wahl.

Immer fragen: Hat eine bestimmte Seite einen realen Welt? Sonst: sperren Bei Unsicherheit: Analyticseo fragen.

Weiterleitungen zählen immer doppelt ins Crawl-Budget – also interne Weiterleitungen vermeiden. Gilt natürlich vor allem für Weiterleitungsketten.

Ähnlich: Fehlerseiten. Also: interne 404-Links vermeiden.

Canonical Tag = „Der Redirect des armen Mannes“ = vermeiden, wenn es geht – auch, weil es nur ein „Hint“ ist

XML-Sitemaps: Was gehört da eigentlich rein? Nur URLs, die einen 200er-Code liefern + die nicht gesperrt sind; guter Tipp: XML-Sitemap in Screaming Frog SEO Spider importieren und dann Ergebnis prüfen

Faceted Navigation („Filter“): Vorbild Testsieger.de = implementiert das PRG-Pattern (Filter-Links werden als POST-Formular umgesetzt); zur Sicherheit: Noindex zusätzlich

Paginierung: rel-prev-next mit Noindex kombinieren

Reihenfolge der Parameter bei GET-Parametern = immer gleich umsetzen; URL-Parameter in der Search Console prüfen

Interne Suche auf POST umstellen und auf Noindex setzen

Google crawlend auch AJAX Calls oder JSON-Objekte: Noindex per HTTP-Header ausliefern (X-Robots-Tag); PDF-Dateien sollten ein Canonical Tag auf eine HTML-Variante setzen

Empfehlung: The Ultimate Guide to Log File Analysis

About Markus Hövener

Markus Hövener ist Gründer und Head of SEO der auf SEO und SEM spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor (SEO - Die neuen Regeln), Autor vieler Artikel und Studien rund um SEO und SEM und Chefredakteur des Magazins suchradar.

In seiner Freizeit hat Markus vier Kinder, spielt gerne Klavier (vor allem Jazz) und hört auf langen Autofahrten „Die Drei Fragezeichen“.