Was ist die robots.txt?
Die robots.txt ist eine einfache Textdatei, die unter der URL deinedomain.de/robots.txt liegt. Sie folgt dem Robots Exclusion Standard und gibt Suchmaschinen-Crawlern wie dem Googlebot oder Bingbot Anweisungen, welche Teile der Website sie crawlen dürfen.
Wichtig: Die robots.txt verhindert nur das Crawling, nicht die Indexierung. Wenn andere Seiten auf eine gesperrte URL verlinken, kann Google sie trotzdem in den Index aufnehmen – nur ohne Inhalt.
Aufbau einer robots.txt
Eine minimale, gültige robots.txt sieht so aus:
User-agent: *
Allow: /
Sitemap: https://deinedomain.de/sitemap.xml
Erklärung der Direktiven:
- User-agent: An welchen Bot richten sich die folgenden Anweisungen?
*= alle - Disallow: Welche Pfade dürfen nicht gecrawlt werden?
- Allow: Welche Pfade explizit doch (innerhalb gesperrter Bereiche)?
- Sitemap: Wo liegt die XML-Sitemap?
Typische Anwendungsfälle
- Filter- und Such-URLs sperren:
Disallow: /?filter=– verhindert das Crawling unendlich vieler URL-Varianten - Interne Suchergebnisse ausschließen:
Disallow: /search– kein Crawl Budget für irrelevante Seiten - Admin-Bereiche schützen:
Disallow: /admin/– nicht für die Suche relevant - Staging-Umgebungen sperren:
Disallow: /in einer separaten robots.txt der Subdomain - Bilder oder PDFs vom Crawling ausnehmen:
Disallow: /private/*.pdf
robots.txt vs. noindex
Häufige Verwechslung:
- robots.txt Disallow: Crawler darf die Seite nicht abrufen. Sie kann trotzdem indexiert sein (ohne Inhalt).
- noindex (Meta-Robots-Tag): Seite wird gecrawlt, aber nicht in den Index aufgenommen.
Faustregel: Wenn du eine Seite definitiv aus den Suchergebnissen halten willst, nutze noindex. robots.txt ist für Crawl-Effizienz, nicht für Sichtbarkeitssteuerung.
robots.txt testen
Die Google Search Console bietet einen robots.txt-Tester. Damit lässt sich prüfen, ob bestimmte URLs durch die aktuelle robots.txt blockiert werden – und für welche User-Agents.
Was bedeutet llms.txt?
Mit dem Aufstieg von LLM-basierten Suchsystemen kam ein neuer Standard auf: die llms.txt. Sie ist das Pendant zur robots.txt für KI-Crawler – und gibt Hinweise, welche Inhalte für KI-Modelle besonders relevant sind.
Häufige Fragen
Brauche ich eine robots.txt?
Eigentlich nein. Eine fehlende robots.txt erlaubt allen Crawlern alles. Aber: Wer Filter-URLs, Staging oder Admin-Bereiche aus dem Crawling halten will, sollte eine pflegen. Auch der Sitemap-Verweis ist sinnvoll.
Kann ich Google komplett aussperren?
Ja, mit User-agent: Googlebot + Disallow: /. Das ist aber selten gewollt – die Folge wäre vollständiger Sichtbarkeits-Verlust.
Wie unterscheidet sich robots.txt von der Sitemap?
Die robots.txt sagt, was NICHT gecrawlt werden soll. Die XML-Sitemap sagt, was IDEALERWEISE gecrawlt werden soll. Beide ergänzen sich – die robots.txt verweist üblicherweise auf die Sitemap.
Kurz gesagt: Die robots.txt ist das einfachste technische SEO-Werkzeug – und wird oft falsch eingesetzt. Sie steuert Crawling, nicht Sichtbarkeit.