Crawling – Wie Suchmaschinen-Bots das Web durchsuchen

Was bedeutet Crawling?

Crawling ist der automatisierte Prozess, mit dem Suchmaschinen wie Google das Web systematisch durchsuchen. Ein Programm – der Crawler oder Spider, bei Google der Googlebot – ruft Webseiten ab, liest den HTML-Code, folgt allen Links und speichert die gefundenen Inhalte temporär ab, bevor sie zur Indexierung weitergegeben werden.

Crawling ist die Vorstufe jeder SEO-Aktivität. Eine Seite, die nicht gecrawlt wird, kann nicht indexiert werden – und ohne Indexierung gibt es keine Rankings.

Wie funktioniert Crawling?

Vereinfachter Ablauf:

Crawler startet mit einer Liste bekannter URLs (Seed-URLs)
Ruft jede URL auf und lädt den HTML-Code
Findet im HTML weitere Links – externe und interne
Fügt neue, unbekannte URLs der Crawl-Queue hinzu
Respektiert dabei die Anweisungen aus robots.txt und Meta-Robots-Tags
Übergibt die gelesenen Inhalte an die Indexierungs-Pipeline

Welche Faktoren beeinflussen Crawling?

Interne Verlinkung: gut verlinkte Seiten werden häufiger gecrawlt
XML-Sitemap: die Sitemap hilft Google, neue oder schwer auffindbare Seiten zu entdecken
Server-Performance: langsame Server reduzieren die Crawl-Frequenz
robots.txt: kann ganze Bereiche vom Crawling ausschließen
Crawl-Budget: bei großen Websites limitiert Google die Anzahl gecrawlter Seiten pro Tag
Externe Verlinkung: Backlinks erhöhen Crawl-Frequenz und -Tiefe

Crawl Budget – relevant für große Sites

Google hat begrenzte Ressourcen und entscheidet pro Domain, wie viele Seiten und wie oft sie gecrawlt werden. Für kleine Websites (unter 1.000 Seiten) ist das kein Thema. Bei großen E-Commerce-Shops oder News-Portalen wird das Crawl Budget jedoch zum Engpass.

Maßnahmen zur Crawl-Budget-Optimierung:

Duplicate Content vermeiden – z. B. via Canonical Tags
404-Seiten und Redirect-Ketten minimieren
Wichtige Seiten in der XML-Sitemap priorisieren
Server-Performance erhöhen (schneller = mehr Crawls pro Tag)
Unwichtige Bereiche (Filter, Suchergebnisse) über robots.txt sperren

Wie sehe ich, wie Google meine Seite crawlt?

Die Google Search Console liefert die wichtigsten Daten:

Crawl-Statistiken: Anzahl Crawls pro Tag, Server-Antwortzeiten
URL-Prüfung: zeigt für einzelne URLs den letzten Crawl, Indexierungs-Status, evtl. Fehler
Coverage-Bericht: indexierte, ausgeschlossene und fehlerhafte Seiten

Häufige Fragen

Wie oft crawlt Google meine Website?

Das hängt von Größe, Aktualität und Autorität ab. Eine aktive Newsseite wird mehrmals täglich gecrawlt, ein kleiner Unternehmensblog vielleicht alle paar Tage. Die genauen Zahlen siehst du in der Google Search Console unter „Crawl-Statistik”.

Was ist der Unterschied zwischen Crawling und Indexierung?

Crawling ist das Abrufen der Seite, Indexierung ist die Aufnahme in den Suchmaschinen-Index. Eine Seite kann gecrawlt, aber nicht indexiert werden – z. B. wenn sie ein noindex-Tag enthält oder als Duplicate Content gilt.

Wie blockiere ich Crawler komplett?

Über die robots.txt-Datei kannst du gesamte Bereiche oder einzelne Bots ausschließen. Für einzelne Seiten ist ein noindex-Meta-Tag besser – die Seite wird dann zwar gecrawlt, aber nicht indexiert.

Kurz gesagt: Crawling ist die unsichtbare Voraussetzung jeder Sichtbarkeit. Wer hier Engpässe hat, kann den besten Content schreiben – Google sieht ihn nie.

Crawling – Wie Suchmaschinen das Web entdecken