Meine Notizen: SMX-Vortrag “Crawl-Budget”

18. März 2016 | Von in SEO

Philipp Klöckner und Bastian Grimm haben auf der SMX einen interessanten Vortrag zum Thema “Crawl-Budget” gehalten. Hier gibt’s meine Notizen und auch die Links zum Folien-Download.

Philipp Klöckner (Rocket Internet) = Theorie-Teil

Knappheit an Ressourcen erfordert wirtschaftliches Handeln
Crawl Budget beschränkt, weil Crawling auch Google Geld kostet
Budget hängt ab von PageRank, Änderungshäufigkeit, …

Googles Ziele:

  • Vollständiger Index
  • Maximale Aktualität
  • Neue Dokument schnell finden

Priorisieren nach Pareto-Prinzip (80/20) =
Manche Dokument sind wichtiger als andere
Die meisten Dokument sind nutzlos
Also: Nicht alles gleich crawlen/indexieren

Beispiel (Marktplatz-Website):
Nur 0,5% der Seiten haben Umsatz generiert
Erfolg: Sichtbarkeit massiv gestiegen

Berechnen: Sichtbarkeit / Anzahl der indexierten Seiten

Welche Seiten sollte man rausschmeißen?

  • “No Results”-Seiten löschen (leere Seiten)
  • “Thin Pages” (z. B. Ein einzelner Review auf einer Seite)

Argument: Aber der Longtail ist doch wichtig. Stimmt zwar, aber besser: Gut rankende Seiten erweitern.

Log-File-Analyse durchführen: Schlechte Seiten werden auch nicht gecrawled.

Priorisieren durch Optimierung der internen Verlinkungen. Prinzip: Durchschnittlicher Revenue / Anzahl der internen Links

Quick Wins/Tipps:

  • Standardsortierung auf Übersichtsseiten: Popularität (Top Seller bekommen mehr Links)
  • Neue Produkte auch gut verlinken = schnelle Indizierung
  • Paginierung: mehr Produkte pro Seite (auch gut für Conversions)
  • Evtl. mobile Site für Suchmaschinen sperren (Beispiel: m.ladenzeile.de)
  • Amazon als Beispiel: Google wird eine optimierte Website (z. B. Ohne interne Tracking-Parameter) ausgeliefert

Download der Folien: http://bit.ly/pipsmx2016

Bastian Grimm (Peak Ace) = Praxis-Teil

Download der Folien: http://pa.ag/smxcrawl

Ausgangspunkt: Google Search Console: Ladezeit der HTML-Seiten

Unterschied vs. Crawling und Indexierung: Noindex spart kein Crawl-Budget! Robots.txt verhindert nur das Crawling, aber nicht die Indexierung.

Seine Meinung: In der Praxis ist das Robots-Meta-Tag die bessere Wahl.

Immer fragen: Hat eine bestimmte Seite einen realen Welt? Sonst: sperren Bei Unsicherheit: Analyticseo fragen.

Weiterleitungen zählen immer doppelt ins Crawl-Budget – also interne Weiterleitungen vermeiden. Gilt natürlich vor allem für Weiterleitungsketten.

Ähnlich: Fehlerseiten. Also: interne 404-Links vermeiden.

Canonical Tag = “Der Redirect des armen Mannes” = vermeiden, wenn es geht – auch, weil es nur ein “Hint” ist

XML-Sitemaps: Was gehört da eigentlich rein? Nur URLs, die einen 200er-Code liefern + die nicht gesperrt sind; guter Tipp: XML-Sitemap in Screaming Frog SEO Spider importieren und dann Ergebnis prüfen

Faceted Navigation (“Filter”): Vorbild Testsieger.de = implementiert das PRG-Pattern (Filter-Links werden als POST-Formular umgesetzt); zur Sicherheit: Noindex zusätzlich

Paginierung: rel-prev-next mit Noindex kombinieren

Reihenfolge der Parameter bei GET-Parametern = immer gleich umsetzen; URL-Parameter in der Search Console prüfen

Interne Suche auf POST umstellen und auf Noindex setzen

Google crawlend auch AJAX Calls oder JSON-Objekte: Noindex per HTTP-Header ausliefern (X-Robots-Tag); PDF-Dateien sollten ein Canonical Tag auf eine HTML-Variante setzen

Empfehlung: The Ultimate Guide to Log File Analysis

The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

2 Kommentare zu “Meine Notizen: SMX-Vortrag “Crawl-Budget””

  1. Avatar-Foto Jacek Rużyczka

    Crawl-Budget-Optimierung scheint in den letzten Wochen eines der heißesten Themen unter SEOs geworden zu sein. Kürzlich hatte ich es mit der SEO-Managerin eines Anbieters von Anzeigenportalen zu tun, die zwecks Crawler-Shaping (neudeutsch für: Crawler so durch die eigene Website leiten, damit er sein Budget möglichst effektiv einsetzt) sämliche Anzeigenseiten (also die Endpunkte der Seitenstruktur, welche den eigentlichen Content enthalten) auf noindex setzt und nur noch Startseite (mitsamt einem Friedhof von Fußzeilen-Links) und Kategorieseiten (Landing-Pages) erfassen lässt, denn es seien ja eben nicht die Anzeigenseiten, die nachher in den SERPs gut ranken sollen, sondern eben die Landingpages. Was sagen die hier versammelten Experten dazu?

  2. Avatar-Foto Markus Hövener

    Das müsste ich mir am konkreten Beispiel anschauen. Wenn es aber so ist, dass die Anzeigen wirklich keine/kaum Rankings erzielen, kann man sie wohl wirklich besser sperren. Dann wäre ich aber eher ein Freund von robots.txt und weniger von Noindex.

Kommentieren