Glossar · Technisches SEO

robots.txt – Steuerung für Suchmaschinen-Crawler

Die robots.txt liegt im Root-Verzeichnis einer Website und gibt Suchmaschinen-Crawlern Anweisungen, welche Bereiche sie crawlen oder ignorieren sollen. Sie ist eine der ältesten Standards des Webs – und immer noch zentral für technisches SEO.

Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei, die unter der URL deinedomain.de/robots.txt liegt. Sie folgt dem Robots Exclusion Standard und gibt Suchmaschinen-Crawlern wie dem Googlebot oder Bingbot Anweisungen, welche Teile der Website sie crawlen dürfen.

Wichtig: Die robots.txt verhindert nur das Crawling, nicht die Indexierung. Wenn andere Seiten auf eine gesperrte URL verlinken, kann Google sie trotzdem in den Index aufnehmen – nur ohne Inhalt.

Aufbau einer robots.txt

Eine minimale, gültige robots.txt sieht so aus:

User-agent: *
Allow: /

Sitemap: https://deinedomain.de/sitemap.xml

Erklärung der Direktiven:

  • User-agent: An welchen Bot richten sich die folgenden Anweisungen? * = alle
  • Disallow: Welche Pfade dürfen nicht gecrawlt werden?
  • Allow: Welche Pfade explizit doch (innerhalb gesperrter Bereiche)?
  • Sitemap: Wo liegt die XML-Sitemap?

Typische Anwendungsfälle

  • Filter- und Such-URLs sperren: Disallow: /?filter= – verhindert das Crawling unendlich vieler URL-Varianten
  • Interne Suchergebnisse ausschließen: Disallow: /search – kein Crawl Budget für irrelevante Seiten
  • Admin-Bereiche schützen: Disallow: /admin/ – nicht für die Suche relevant
  • Staging-Umgebungen sperren: Disallow: / in einer separaten robots.txt der Subdomain
  • Bilder oder PDFs vom Crawling ausnehmen: Disallow: /private/*.pdf

robots.txt vs. noindex

Häufige Verwechslung:

  • robots.txt Disallow: Crawler darf die Seite nicht abrufen. Sie kann trotzdem indexiert sein (ohne Inhalt).
  • noindex (Meta-Robots-Tag): Seite wird gecrawlt, aber nicht in den Index aufgenommen.

Faustregel: Wenn du eine Seite definitiv aus den Suchergebnissen halten willst, nutze noindex. robots.txt ist für Crawl-Effizienz, nicht für Sichtbarkeitssteuerung.

robots.txt testen

Die Google Search Console bietet einen robots.txt-Tester. Damit lässt sich prüfen, ob bestimmte URLs durch die aktuelle robots.txt blockiert werden – und für welche User-Agents.

Was bedeutet llms.txt?

Mit dem Aufstieg von LLM-basierten Suchsystemen kam ein neuer Standard auf: die llms.txt. Sie ist das Pendant zur robots.txt für KI-Crawler – und gibt Hinweise, welche Inhalte für KI-Modelle besonders relevant sind.

Häufige Fragen

Brauche ich eine robots.txt?

Eigentlich nein. Eine fehlende robots.txt erlaubt allen Crawlern alles. Aber: Wer Filter-URLs, Staging oder Admin-Bereiche aus dem Crawling halten will, sollte eine pflegen. Auch der Sitemap-Verweis ist sinnvoll.

Kann ich Google komplett aussperren?

Ja, mit User-agent: Googlebot + Disallow: /. Das ist aber selten gewollt – die Folge wäre vollständiger Sichtbarkeits-Verlust.

Wie unterscheidet sich robots.txt von der Sitemap?

Die robots.txt sagt, was NICHT gecrawlt werden soll. Die XML-Sitemap sagt, was IDEALERWEISE gecrawlt werden soll. Beide ergänzen sich – die robots.txt verweist üblicherweise auf die Sitemap.

Kurz gesagt: Die robots.txt ist das einfachste technische SEO-Werkzeug – und wird oft falsch eingesetzt. Sie steuert Crawling, nicht Sichtbarkeit.

Bereit für nachhaltige Sichtbarkeit?

Lass uns sprechen, wie SEO dein Unternehmen messbar nach vorne bringt.