robots.txt – Crawler-Steuerung für Suchmaschinen

Q: Kann ich Google komplett aussperren?

Ja, mit User-agent: Googlebot + Disallow: / . Das ist aber selten gewollt – die Folge wäre vollständiger Sichtbarkeits-Verlust.

Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei, die unter der URL deinedomain.de/robots.txt liegt. Sie folgt dem Robots Exclusion Standard und gibt Suchmaschinen-Crawlern wie dem Googlebot oder Bingbot Anweisungen, welche Teile der Website sie crawlen dürfen.

Wichtig: Die robots.txt verhindert nur das Crawling, nicht die Indexierung. Wenn andere Seiten auf eine gesperrte URL verlinken, kann Google sie trotzdem in den Index aufnehmen – nur ohne Inhalt.

Aufbau einer robots.txt

Eine minimale, gültige robots.txt sieht so aus:

User-agent: *
Allow: /

Sitemap: https://deinedomain.de/sitemap.xml

Erklärung der Direktiven:

User-agent: An welchen Bot richten sich die folgenden Anweisungen? * = alle
Disallow: Welche Pfade dürfen nicht gecrawlt werden?
Allow: Welche Pfade explizit doch (innerhalb gesperrter Bereiche)?
Sitemap: Wo liegt die XML-Sitemap?

Typische Anwendungsfälle

Filter- und Such-URLs sperren: Disallow: /?filter= – verhindert das Crawling unendlich vieler URL-Varianten
Interne Suchergebnisse ausschließen: Disallow: /search – kein Crawl Budget für irrelevante Seiten
Admin-Bereiche schützen: Disallow: /admin/ – nicht für die Suche relevant
Staging-Umgebungen sperren: Disallow: / in einer separaten robots.txt der Subdomain
Bilder oder PDFs vom Crawling ausnehmen: Disallow: /private/*.pdf

robots.txt vs. noindex

Häufige Verwechslung:

robots.txt Disallow: Crawler darf die Seite nicht abrufen. Sie kann trotzdem indexiert sein (ohne Inhalt).
noindex (Meta-Robots-Tag): Seite wird gecrawlt, aber nicht in den Index aufgenommen.

Faustregel: Wenn du eine Seite definitiv aus den Suchergebnissen halten willst, nutze noindex. robots.txt ist für Crawl-Effizienz, nicht für Sichtbarkeitssteuerung.

robots.txt testen

Die Google Search Console bietet einen robots.txt-Tester. Damit lässt sich prüfen, ob bestimmte URLs durch die aktuelle robots.txt blockiert werden – und für welche User-Agents.

Was bedeutet llms.txt?

Mit dem Aufstieg von LLM-basierten Suchsystemen kam ein neuer Standard auf: die llms.txt. Sie ist das Pendant zur robots.txt für KI-Crawler – und gibt Hinweise, welche Inhalte für KI-Modelle besonders relevant sind.

Häufige Fragen

Brauche ich eine robots.txt?

Eigentlich nein. Eine fehlende robots.txt erlaubt allen Crawlern alles. Aber: Wer Filter-URLs, Staging oder Admin-Bereiche aus dem Crawling halten will, sollte eine pflegen. Auch der Sitemap-Verweis ist sinnvoll.

Kann ich Google komplett aussperren?

Ja, mit User-agent: Googlebot + Disallow: /. Das ist aber selten gewollt – die Folge wäre vollständiger Sichtbarkeits-Verlust.

Wie unterscheidet sich robots.txt von der Sitemap?

Die robots.txt sagt, was NICHT gecrawlt werden soll. Die XML-Sitemap sagt, was IDEALERWEISE gecrawlt werden soll. Beide ergänzen sich – die robots.txt verweist üblicherweise auf die Sitemap.

Kurz gesagt: Die robots.txt ist das einfachste technische SEO-Werkzeug – und wird oft falsch eingesetzt. Sie steuert Crawling, nicht Sichtbarkeit.

robots.txt – Steuerung für Suchmaschinen-Crawler