Glossar · Technisches SEO

Crawling – Wie Suchmaschinen das Web entdecken

Crawling ist die erste Stufe jeder Suchmaschinen-Arbeit: Bots (Crawler, Spider) folgen Links durch das Web, lesen Inhalte aus und bereiten sie für die Indexierung vor. Ohne erfolgreiches Crawling keine Sichtbarkeit.

Was bedeutet Crawling?

Crawling ist der automatisierte Prozess, mit dem Suchmaschinen wie Google das Web systematisch durchsuchen. Ein Programm – der Crawler oder Spider, bei Google der Googlebot – ruft Webseiten ab, liest den HTML-Code, folgt allen Links und speichert die gefundenen Inhalte temporär ab, bevor sie zur Indexierung weitergegeben werden.

Crawling ist die Vorstufe jeder SEO-Aktivität. Eine Seite, die nicht gecrawlt wird, kann nicht indexiert werden – und ohne Indexierung gibt es keine Rankings.

Wie funktioniert Crawling?

Vereinfachter Ablauf:

  1. Crawler startet mit einer Liste bekannter URLs (Seed-URLs)
  2. Ruft jede URL auf und lädt den HTML-Code
  3. Findet im HTML weitere Links – externe und interne
  4. Fügt neue, unbekannte URLs der Crawl-Queue hinzu
  5. Respektiert dabei die Anweisungen aus robots.txt und Meta-Robots-Tags
  6. Übergibt die gelesenen Inhalte an die Indexierungs-Pipeline

Welche Faktoren beeinflussen Crawling?

  • Interne Verlinkung: gut verlinkte Seiten werden häufiger gecrawlt
  • XML-Sitemap: die Sitemap hilft Google, neue oder schwer auffindbare Seiten zu entdecken
  • Server-Performance: langsame Server reduzieren die Crawl-Frequenz
  • robots.txt: kann ganze Bereiche vom Crawling ausschließen
  • Crawl-Budget: bei großen Websites limitiert Google die Anzahl gecrawlter Seiten pro Tag
  • Externe Verlinkung: Backlinks erhöhen Crawl-Frequenz und -Tiefe

Crawl Budget – relevant für große Sites

Google hat begrenzte Ressourcen und entscheidet pro Domain, wie viele Seiten und wie oft sie gecrawlt werden. Für kleine Websites (unter 1.000 Seiten) ist das kein Thema. Bei großen E-Commerce-Shops oder News-Portalen wird das Crawl Budget jedoch zum Engpass.

Maßnahmen zur Crawl-Budget-Optimierung:

  • Duplicate Content vermeiden – z. B. via Canonical Tags
  • 404-Seiten und Redirect-Ketten minimieren
  • Wichtige Seiten in der XML-Sitemap priorisieren
  • Server-Performance erhöhen (schneller = mehr Crawls pro Tag)
  • Unwichtige Bereiche (Filter, Suchergebnisse) über robots.txt sperren

Wie sehe ich, wie Google meine Seite crawlt?

Die Google Search Console liefert die wichtigsten Daten:

  • Crawl-Statistiken: Anzahl Crawls pro Tag, Server-Antwortzeiten
  • URL-Prüfung: zeigt für einzelne URLs den letzten Crawl, Indexierungs-Status, evtl. Fehler
  • Coverage-Bericht: indexierte, ausgeschlossene und fehlerhafte Seiten

Häufige Fragen

Wie oft crawlt Google meine Website?

Das hängt von Größe, Aktualität und Autorität ab. Eine aktive Newsseite wird mehrmals täglich gecrawlt, ein kleiner Unternehmensblog vielleicht alle paar Tage. Die genauen Zahlen siehst du in der Google Search Console unter „Crawl-Statistik”.

Was ist der Unterschied zwischen Crawling und Indexierung?

Crawling ist das Abrufen der Seite, Indexierung ist die Aufnahme in den Suchmaschinen-Index. Eine Seite kann gecrawlt, aber nicht indexiert werden – z. B. wenn sie ein noindex-Tag enthält oder als Duplicate Content gilt.

Wie blockiere ich Crawler komplett?

Über die robots.txt-Datei kannst du gesamte Bereiche oder einzelne Bots ausschließen. Für einzelne Seiten ist ein noindex-Meta-Tag besser – die Seite wird dann zwar gecrawlt, aber nicht indexiert.

Kurz gesagt: Crawling ist die unsichtbare Voraussetzung jeder Sichtbarkeit. Wer hier Engpässe hat, kann den besten Content schreiben – Google sieht ihn nie.

Bereit für nachhaltige Sichtbarkeit?

Lass uns sprechen, wie SEO dein Unternehmen messbar nach vorne bringt.