Was ist die robots.txt?
Die robots.txt ist eine einfache Textdatei im Wurzelverzeichnis einer Webseite. Sie gibt Suchmaschinen-Crawlern wie dem Googlebot Anweisungen, welche Bereiche sie besuchen dürfen und welche nicht. Beim Crawling ist sie die erste Datei, die ein Bot aufruft.
Wichtig zu verstehen: Die robots.txt steuert das Crawling, nicht die Indexierung. Eine per robots.txt gesperrte Seite kann unter Umständen trotzdem im Index landen, wenn andere Seiten auf sie verlinken. Um eine Seite sicher aus dem Index zu halten, ist noindex das richtige Mittel.
Wie die robots.txt aufgebaut ist
Die Datei arbeitet mit wenigen Anweisungen:
- User-agent: legt fest, für welchen Crawler die Regel gilt.
- Disallow: sperrt bestimmte Verzeichnisse oder Seiten.
- Allow: gibt einzelne Pfade innerhalb gesperrter Bereiche frei.
- Sitemap: verweist auf die Sitemap der Webseite.
Üblicherweise werden hier interne Bereiche wie Admin-Verzeichnisse oder Warenkörbe vom Crawling ausgenommen, um das Crawl-Budget auf relevante Seiten zu lenken.
Gefährliche Fehler in der robots.txt
Ein einziger falscher Eintrag kann fatale Folgen haben. Die Anweisung „Disallow: /“ sperrt die gesamte Webseite vom Crawling – ein Fehler, der gerade nach einem Relaunch häufig versehentlich aus der Testumgebung mitkommt und die komplette Seite aus den Suchergebnissen verschwinden lässt.
Deshalb gehört die robots.txt nach jedem Relaunch und in regelmäßigen Abständen auf den Prüfstand. Die Google Search Console bietet dafür einen Tester, der zeigt, ob wichtige URLs versehentlich blockiert werden.