Was ist Crawling?
Crawling ist der erste Schritt, mit dem Suchmaschinen Inhalte erfassen. Automatisierte Programme – bei Google der Googlebot – besuchen Webseiten, lesen deren Inhalt und folgen den enthaltenen Links zu weiteren Seiten. So arbeitet sich der Crawler durch das Web und entdeckt neue oder geänderte Inhalte.
Crawling ist die Voraussetzung für die Indexierung: Nur was gecrawlt wird, kann in den Index aufgenommen werden, und nur was im Index ist, kann ranken. Steuern lässt sich das Crawling über die robots.txt und eine Sitemap.
Wie Crawling funktioniert
Der Crawling-Prozess folgt einem wiederkehrenden Muster:
- URL-Liste: Der Crawler startet mit bekannten URLs und der Sitemap.
- Abruf: Er ruft die Seiten ab und liest deren HTML.
- Linkverfolgung: Gefundene Links werden zur Liste hinzugefügt.
- Wiederholung: Bekannte Seiten werden regelmäßig erneut besucht.
Eine gute interne Verlinkung erleichtert das Crawling erheblich, weil der Bot so leichter alle wichtigen Seiten erreicht.
Crawl-Budget verstehen
Google investiert pro Webseite nur eine begrenzte Menge an Ressourcen ins Crawling – das sogenannte Crawl-Budget. Bei kleinen Seiten spielt das kaum eine Rolle, bei großen mit tausenden URLs schon: Verschwendet die Seite Budget auf unwichtige oder doppelte Seiten, werden relevante Inhalte seltener besucht.
Hier helfen das Aussperren unwichtiger Bereiche per robots.txt, eine saubere Seitenstruktur und das Vermeiden von Duplicate Content, damit das Budget den wichtigen Seiten zugutekommt.