Meine Notizen: SMX-Vortrag “Crawl-Budget”
Philipp Klöckner und Bastian Grimm haben auf der SMX einen interessanten Vortrag zum Thema “Crawl-Budget” gehalten. Hier gibt’s meine Notizen und auch die Links zum Folien-Download.
Philipp Klöckner (Rocket Internet) = Theorie-Teil
Knappheit an Ressourcen erfordert wirtschaftliches Handeln
Crawl Budget beschränkt, weil Crawling auch Google Geld kostet
Budget hängt ab von PageRank, Änderungshäufigkeit, …
Googles Ziele:
- Vollständiger Index
- Maximale Aktualität
- Neue Dokument schnell finden
Priorisieren nach Pareto-Prinzip (80/20) =
Manche Dokument sind wichtiger als andere
Die meisten Dokument sind nutzlos
Also: Nicht alles gleich crawlen/indexieren
Beispiel (Marktplatz-Website):
Nur 0,5% der Seiten haben Umsatz generiert
Erfolg: Sichtbarkeit massiv gestiegen
Berechnen: Sichtbarkeit / Anzahl der indexierten Seiten
Welche Seiten sollte man rausschmeißen?
- “No Results”-Seiten löschen (leere Seiten)
- “Thin Pages” (z. B. Ein einzelner Review auf einer Seite)
- …
Argument: Aber der Longtail ist doch wichtig. Stimmt zwar, aber besser: Gut rankende Seiten erweitern.
Log-File-Analyse durchführen: Schlechte Seiten werden auch nicht gecrawled.
Priorisieren durch Optimierung der internen Verlinkungen. Prinzip: Durchschnittlicher Revenue / Anzahl der internen Links
Quick Wins/Tipps:
- Standardsortierung auf Übersichtsseiten: Popularität (Top Seller bekommen mehr Links)
- Neue Produkte auch gut verlinken = schnelle Indizierung
- Paginierung: mehr Produkte pro Seite (auch gut für Conversions)
- Evtl. mobile Site für Suchmaschinen sperren (Beispiel: m.ladenzeile.de)
- Amazon als Beispiel: Google wird eine optimierte Website (z. B. Ohne interne Tracking-Parameter) ausgeliefert
Download der Folien: http://bit.ly/pipsmx2016
Bastian Grimm (Peak Ace) = Praxis-Teil
Download der Folien: http://pa.ag/smxcrawl
Ausgangspunkt: Google Search Console: Ladezeit der HTML-Seiten
Unterschied vs. Crawling und Indexierung: Noindex spart kein Crawl-Budget! Robots.txt verhindert nur das Crawling, aber nicht die Indexierung.
Seine Meinung: In der Praxis ist das Robots-Meta-Tag die bessere Wahl.
Immer fragen: Hat eine bestimmte Seite einen realen Welt? Sonst: sperren Bei Unsicherheit: Analyticseo fragen.
Weiterleitungen zählen immer doppelt ins Crawl-Budget – also interne Weiterleitungen vermeiden. Gilt natürlich vor allem für Weiterleitungsketten.
Ähnlich: Fehlerseiten. Also: interne 404-Links vermeiden.
Canonical Tag = “Der Redirect des armen Mannes” = vermeiden, wenn es geht – auch, weil es nur ein “Hint” ist
XML-Sitemaps: Was gehört da eigentlich rein? Nur URLs, die einen 200er-Code liefern + die nicht gesperrt sind; guter Tipp: XML-Sitemap in Screaming Frog SEO Spider importieren und dann Ergebnis prüfen
Faceted Navigation (“Filter”): Vorbild Testsieger.de = implementiert das PRG-Pattern (Filter-Links werden als POST-Formular umgesetzt); zur Sicherheit: Noindex zusätzlich
Paginierung: rel-prev-next mit Noindex kombinieren
Reihenfolge der Parameter bei GET-Parametern = immer gleich umsetzen; URL-Parameter in der Search Console prüfen
Interne Suche auf POST umstellen und auf Noindex setzen
Google crawlend auch AJAX Calls oder JSON-Objekte: Noindex per HTTP-Header ausliefern (X-Robots-Tag); PDF-Dateien sollten ein Canonical Tag auf eine HTML-Variante setzen
Empfehlung: The Ultimate Guide to Log File Analysis
Markus Hövener
Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.
Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.
Neueste Artikel von Markus Hövener (alle ansehen)
- Welche SEO-Konferenz ist die beste? [Search Camp 317] - 23. April 2024
- SEO-Trainee-Programme: Ganz einfach SEOs ausbilden? [Search Camp 316] - 16. April 2024
- SEO-Monatsrückblick März 2024: Google Updates, Search Console + mehr [Search Camp 315] - 2. April 2024
- Recap zur SMX München: Die wichtigsten Take-Aways [Search Camp 314] - 19. März 2024
- Sichtbarkeit und/oder Traffic gehen nach unten: Woran kann’s liegen? [Search Camp 313] - 12. März 2024
März 18th, 2016 at 16:58
Crawl-Budget-Optimierung scheint in den letzten Wochen eines der heißesten Themen unter SEOs geworden zu sein. Kürzlich hatte ich es mit der SEO-Managerin eines Anbieters von Anzeigenportalen zu tun, die zwecks Crawler-Shaping (neudeutsch für: Crawler so durch die eigene Website leiten, damit er sein Budget möglichst effektiv einsetzt) sämliche Anzeigenseiten (also die Endpunkte der Seitenstruktur, welche den eigentlichen Content enthalten) auf noindex setzt und nur noch Startseite (mitsamt einem Friedhof von Fußzeilen-Links) und Kategorieseiten (Landing-Pages) erfassen lässt, denn es seien ja eben nicht die Anzeigenseiten, die nachher in den SERPs gut ranken sollen, sondern eben die Landingpages. Was sagen die hier versammelten Experten dazu?
März 18th, 2016 at 17:23
Das müsste ich mir am konkreten Beispiel anschauen. Wenn es aber so ist, dass die Anzeigen wirklich keine/kaum Rankings erzielen, kann man sie wohl wirklich besser sperren. Dann wäre ich aber eher ein Freund von robots.txt und weniger von Noindex.