Matt Cutts im (langen) Interview mit Eric Enge: Viele interessante Informationen für SEOs
Freitag 19. März 2010 von Markus
Es gab wohl seit Monaten kein so gutes Interview mit jemandem von Google, das so viele Wellen geschlagen hat: “Matt Cutts Interviewed by Eric Enge” – gut gemacht, mit vielen Infos. Schlussendlich muss man ja nicht immer alles glauben, was von Google nach außen getragen wird. Man sollte sich da ruhig seine eigene Meinung bilden. Ein paar Aspekte des Interviews würde ich aber gerne hier beleuchten und kommentieren.
“[...] here isn’t really such thing as an indexation cap [...]“
Das sehe ich in der Praxis auch so. Es gibt nicht wirklich eine harte Grenze (Anzahl an indexierten Seiten), bis zu der Google Inhalte einer bestimmten Website erfasst. Das hätte wohl so auch niemand vermutet, dass Google ab einer Zahl X einfach abbricht. Aber:
“[...] the number of pages that we crawl is roughly proportional to your PageRank [...]“
Gemeint ist hier: Jeder Seite wird ein PageRank zugewiesen. Man kann das auch internen Link Juice oder internes Gewicht nennen. Wenn eine Seite nun innerhalb der Website so tief liegt, dass sie nur wenig Link Juice hat, kann es passieren, dass Google den Links auf dieser Seite nicht mehr folgt.
Sein Kommentar, dass die Anzahl der indexierten Seiten ganz grob vom PageRank abhängt, macht also durchaus Sinn: Je mehr PageRank die Startseite einer Website hat, desto mehr PageRank kann sie an tiefere Seiten abgeben – und desto wahrscheinlicher ist es dann, dass eine bestimmte Seite auch indexiert wird.
“[...] there is the concept of host load. [...] In theory, you can run into limits on how hard we will crawl your site. [...]“
Es gibt nach Aussage von Matt Cutts keine definierte Anzahl an gecrawlten Seiten pro Zeiteinheit. Es kann aber passieren, dass weniger Seiten gecrawlt werden, weil die Site nicht performant ist und/oder weil von derselben IP bereits zeitgleich viele andere Seiten geholt werden. Das könnte ein Argument gegen Shared IPs sein.
“[...] My overall advice is that it helps enormously if you can fix the site architecture upfront [...]
Hier die Empfehlung von Matt Cutts, dass man Duplicate Content auf jeden Fall verhindern sollte, wenn man es denn kann, denn:
“[...] Typically, duplicate content is not the largest factor on how many pages will be crawled, but it can be a factor. [...]“
Und für den Fall, dass jemand von Google noch einen Hinweis braucht, dass Session-IDs schlecht sind, hat Matt auch einen recht klaren Hinweis parat:
“[...] Don’t use them. [...]“
Und dann geht es noch um die Frage, ob PageRank
“[...] the 301 Redirect would pass PageRank. [...]“
Aber:
“[...] There is some loss of PR through a 301. [...]“
Das hatten viele SEOs ohnehin schon sehr lange vermutet – jetzt hat Google es zumindest bestätigt. Durch eine 301-Umleitung geht also etwas PageRank verloren.
Interessant ist auch ein Kommentar zur alten Frage “Crawling vs. Indexierung”:
“[...] So it doesn’t necessarily save your crawl budget. [...]“
Wenn man also eine Seite (per robots.txt) für Suchmaschinen blockt, ist es laut Matt Cutts nicht unbedingt so, dass damit mehr nicht geblockte Seiten abgeholt werden. Die robots.txt verhindert eben nur, dass die Seite gecrawlt, also vom Web-Server abgeholt wird. Es kann aber trotzdem vorkommen, dass die betroffene Seite im Index erscheint.
Diese Aussage von Matt Cutts erscheint mir aber nicht schlüssig – mal davon abgesehen, dass es eben “not necessarily” heißt, was man wohl mit “kann sein, kann aber auch nicht sein” übersetzt. Das deckt sich nicht mit unseren Beobachtungen bei sehr großen Websites, wo sehr viele irrelevante Seiten für Suchmaschinen geblockt werden.
Interessant ist auch die Nachfrage in Bezug auf Faceted Navigation (die Nutzung von Filtermechanismen). Hier geht es um das Schlüsselproblem von Faceted Navigation, dass man schnell viele Seiten erzeugt, die sehr textarm sind und vom Crawler durchaus als nicht “unique” genug eingestuft werden können. Hier gibt Matt immerhin einen Tipp:
“[...] one thing to think about is if you can limit the number of lenses or facets [...]“
Denn:
“[...] If there are a large number of pages that we consider low value, then we might not crawl quite as many pages from that site. [...]“
Auch das können wir so aus der Praxis bestätigen. Google will einfach viel “Unique Content” auf Seiten finden. Wenn das immer nur zusammengewürfte, textarme Elemente sind, gibt der Crawler aktuell in der Tat schnell auf.
Und dann fand ich diesen Kommentar noch hilfreich:
“[...] Google has gotten smarter about JavaScript and can execute some JavaScript. [...]“
Ja, kann ich so bestätigen. Wir haben da ein paar Testseiten angelegt mit JS-Code in unterschiedlichem Komplexitätsgrad. Einige der URLs kann eine Suchmaschine nur dann raten, wenn sie auch wirklich den Code ausführt, weil dort eine Schleife läuft und auf eine Variable zugreift. Um das erkennen zu können, muss man JS-Code ausführen können. Und Google kann das. (Y! und Bing schaffen das derzeit noch nicht)
Also: Ein großartiges Interview mit vielen Informationen. Ich kann jeden nur motivieren, es selber zu lesen, denn es geht dort auch noch um andere Themen, z.B.
- Interne Verlinkung
- PDF-Dateien
- Affiliate-Links
- …
Viel Spaß beim Lesen!
Markus
Markus Hövener ist geschäftsführender Gesellschafter der SEO-/SEM-Agentur Bloofusion und Chefredakteur des Magazins suchradar.
Alle Posts von Markus | @bloonatic bei Twitter folgen
Dieser Beitrag wurde erstellt am Freitag 19. März 2010 um 14:33 und abgelegt unter SEO. Kommentare zu diesen Eintrag im RSS 2.0 Feed. Sie können einen Kommentar schreiben, oder einen Trackback auf Ihrer Seite einrichten.


