Glossar

robots.txt

Die robots.txt ist eine Datei im Wurzelverzeichnis, die Suchmaschinen anweist, welche Bereiche einer Webseite sie crawlen dürfen und welche nicht.

Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei im Wurzelverzeichnis einer Webseite. Sie gibt Suchmaschinen-Crawlern wie dem Googlebot Anweisungen, welche Bereiche sie besuchen dürfen und welche nicht. Beim Crawling ist sie die erste Datei, die ein Bot aufruft.

Wichtig zu verstehen: Die robots.txt steuert das Crawling, nicht die Indexierung. Eine per robots.txt gesperrte Seite kann unter Umständen trotzdem im Index landen, wenn andere Seiten auf sie verlinken. Um eine Seite sicher aus dem Index zu halten, ist noindex das richtige Mittel.

Wie die robots.txt aufgebaut ist

Die Datei arbeitet mit wenigen Anweisungen:

  • User-agent: legt fest, für welchen Crawler die Regel gilt.
  • Disallow: sperrt bestimmte Verzeichnisse oder Seiten.
  • Allow: gibt einzelne Pfade innerhalb gesperrter Bereiche frei.
  • Sitemap: verweist auf die Sitemap der Webseite.

Üblicherweise werden hier interne Bereiche wie Admin-Verzeichnisse oder Warenkörbe vom Crawling ausgenommen, um das Crawl-Budget auf relevante Seiten zu lenken.

Gefährliche Fehler in der robots.txt

Ein einziger falscher Eintrag kann fatale Folgen haben. Die Anweisung „Disallow: /“ sperrt die gesamte Webseite vom Crawling – ein Fehler, der gerade nach einem Relaunch häufig versehentlich aus der Testumgebung mitkommt und die komplette Seite aus den Suchergebnissen verschwinden lässt.

Deshalb gehört die robots.txt nach jedem Relaunch und in regelmäßigen Abständen auf den Prüfstand. Die Google Search Console bietet dafür einen Tester, der zeigt, ob wichtige URLs versehentlich blockiert werden.

FAQ

robots.txt – häufige Fragen

Wo liegt die robots.txt?

Immer im Wurzelverzeichnis der Domain, erreichbar unter ihredomain.de/robots.txt. Nur dort wird sie von Suchmaschinen ausgewertet.

Hält die robots.txt Seiten aus dem Google-Index?

Nicht zuverlässig. Sie steuert das Crawling, nicht die Indexierung. Um eine Seite sicher aus dem Index zu halten, nutzen Sie noindex.

Was passiert bei einem Fehler in der robots.txt?

Im schlimmsten Fall wird die ganze Webseite vom Crawling ausgeschlossen und verschwindet aus den Suchergebnissen. Regelmäßige Prüfungen verhindern das.

Crawling-Fehler ausschließen?

Wir prüfen robots.txt, Indexierung und Crawling Ihrer Webseite, damit Google genau die richtigen Seiten findet.

Kostenloses Erstgespräch