Crawling & Indexierung

Bevor eine Website in den Suchergebnissen erscheint, muss Google sie zunächst finden, auslesen und in seinen Index aufnehmen – dieser zweistufige Prozess aus Crawling und Indexierung ist die technische Basis jeder erfolgreichen SEO-Strategie. Wer versteht, wie Googlebot Seiten entdeckt, welche Signale über Aufnahme oder Ausschluss entscheiden und wo typische Blockaden entstehen, kann gezielt eingreifen und Sichtbarkeit aufbauen. HEEY erklärt, worauf es ankommt – konkret, ohne Fachjargon-Nebel und mit Blick auf die Praxis im Rhein-Main-Gebiet.

Was ist Crawling – und warum ist es der erste Schritt zur Sichtbarkeit?

Crawling bezeichnet den Prozess, bei dem automatisierte Programme – sogenannte Bots oder Spider, im Fall von Google der Googlebot – das Web systematisch durchsuchen. Der Bot folgt Links von einer Seite zur nächsten, liest den Quellcode aus und übergibt die gewonnenen Informationen an Googles Verarbeitungssysteme. Ohne diesen ersten Schritt existiert eine Seite für Suchmaschinen schlicht nicht.

Entscheidend ist dabei die sogenannte Crawl-Budget-Steuerung: Google weist jeder Domain eine begrenzte Menge an Crawling-Ressourcen zu. Bei kleinen Unternehmenswebsites – etwa einem Steuerberater in Wiesbaden-Biebrich oder einem Handwerksbetrieb aus Mainz – ist dieses Budget in der Regel ausreichend. Bei größeren E-Commerce-Shops oder Portalen mit tausenden Unterseiten kann ein ineffizientes Crawl-Budget dazu führen, dass wichtige Seiten seltener oder gar nicht gecrawlt werden. Hier lohnt sich eine gezielte Analyse der Crawl-Protokolle in der Google Search Console.

Der Googlebot entdeckt neue Seiten primär über interne und externe Links sowie über XML-Sitemaps. Wer neue Inhalte schnell indexiert haben möchte – zum Beispiel nach einem Relaunch oder einer neuen Landingpage für die Region Frankfurt – sollte die Sitemap aktuell halten und in der Search Console einreichen.

Indexierung: Vom Crawl zum Suchergebnis

Indexierung ist der zweite Schritt: Google verarbeitet den gecrawlten Inhalt, analysiert Relevanz, Qualität und Struktur und entscheidet, ob eine Seite in den Suchindex aufgenommen wird. Nur indexierte Seiten können ranken. Wichtig zu verstehen: Crawling garantiert keine Indexierung. Google kann eine Seite crawlen und trotzdem entscheiden, sie nicht aufzunehmen – etwa weil der Inhalt als zu dünn, als Duplikat oder als nicht nutzwertig eingestuft wird.

In der Google Search Console lässt sich der Indexierungsstatus jeder einzelnen URL prüfen. Der Bericht „Seitenindexierung“ zeigt, welche Seiten indexiert sind, welche ausgeschlossen wurden und aus welchem Grund. Häufige Ausschlussgründe sind: „Crawled – currently not indexed“ (gecrawlt, aber nicht aufgenommen), „Duplicate without canonical tag“ oder „Blocked by robots.txt“. Jeder dieser Status erfordert eine andere Maßnahme.

Für lokale Unternehmen im Rhein-Main-Gebiet ist besonders relevant, dass standortbezogene Landingpages – etwa für Dienstleistungen in Wiesbaden, Mainz, Rüsselsheim oder Darmstadt – tatsächlich indexiert sind. Eine Seite, die für „Elektriker Wiesbaden-Dotzheim“ ranken soll, aber nicht im Index liegt, erzeugt schlicht keine Sichtbarkeit.

Robots.txt und Meta-Robots: Crawling gezielt steuern

Die robots.txt-Datei liegt im Stammverzeichnis einer Domain und gibt Crawlern Anweisungen, welche Bereiche sie besuchen dürfen und welche nicht. Sie ist kein Sicherheitsmechanismus, sondern ein Hinweis – Googlebot hält sich in der Regel daran, andere Bots möglicherweise nicht. Ein häufiger Fehler: Staging-Umgebungen oder interne Suchseiten werden nicht blockiert und landen im Index, was zu Duplicate-Content-Problemen führt.

Auf Seitenebene steuert das Meta-Robots-Tag im HTML-Head die Indexierung individuell. Die Direktive noindex verhindert die Aufnahme in den Index, nofollow weist den Bot an, Links auf dieser Seite nicht zu verfolgen. Wichtig: Eine Seite, die per robots.txt geblockt ist, kann trotzdem im Index erscheinen – nämlich dann, wenn externe Links auf sie verweisen. Wer eine Seite sicher aus dem Index entfernen möchte, muss das Meta-Robots-Tag noindex setzen und die robots.txt-Blockade aufheben, damit Google die Direktive überhaupt lesen kann.

Für Agenturen und Unternehmen, die ihre Website regelmäßig überarbeiten, empfiehlt HEEY eine dokumentierte robots.txt-Strategie: Welche Verzeichnisse sollen gecrawlt werden, welche nicht – und warum? Diese Entscheidungen sollten bewusst getroffen und nicht dem Zufall überlassen werden.

XML-Sitemaps: Der direkte Weg in den Index

Eine XML-Sitemap ist eine strukturierte Liste aller URLs, die eine Website für die Indexierung vorschlägt. Sie ist kein Garant für die Aufnahme in den Index, aber ein wichtiges Signal an Googlebot: Diese Seiten sind relevant, aktuell und sollen gecrawlt werden. Besonders bei neuen Websites oder nach größeren Strukturänderungen beschleunigt eine eingereichte Sitemap den Crawling-Prozess spürbar.

Typische Fehler bei Sitemaps:

URLs in der Sitemap, die per noindex oder robots.txt gesperrt sind – ein direkter Widerspruch, den Google als Qualitätssignal negativ wertet.
Veraltete URLs nach Relaunch oder URL-Umstrukturierung, die zu 404-Fehlern führen.
Fehlende Hreflang-Einträge bei mehrsprachigen Seiten, was zu falschen Indexierungen in den falschen Märkten führt.
Keine Aktualisierung der Sitemap nach neuen Inhalten – Google erfährt so nicht zeitnah von neuen Seiten.

Sitemaps sollten in der Google Search Console eingetragen und regelmäßig auf Fehler geprüft werden. Wer sein CMS (WordPress, TYPO3, Shopify etc.) nutzt, sollte sicherstellen, dass die automatisch generierte Sitemap korrekt konfiguriert ist und keine unerwünschten URLs enthält.

Technische Crawling-Hindernisse erkennen und beheben

Selbst gut strukturierte Websites können Crawling-Probleme haben, die sich erst bei genauer Analyse zeigen. Zu den häufigsten technischen Hindernissen gehören JavaScript-lastige Architekturen: Wenn Inhalte erst durch clientseitiges JavaScript geladen werden, kann Googlebot sie möglicherweise nicht oder verzögert erfassen. Google rendert JavaScript, aber dieser Prozess ist ressourcenintensiv und zeitverzögert – kritische Inhalte sollten daher im initialen HTML verfügbar sein.

Weitere verbreitete Crawling-Probleme:

Redirect-Ketten und -Schleifen: Mehrfache Weiterleitungen kosten Crawl-Budget und können dazu führen, dass der Bot abbricht, bevor er die Zielseite erreicht.
Broken Links (404-Fehler): Interne Links auf nicht existierende Seiten verschwenden Crawl-Budget und signalisieren mangelnde Pflege.
Canonicalization-Fehler: Fehlende oder falsch gesetzte Canonical-Tags führen dazu, dass Google nicht weiß, welche URL-Variante indexiert werden soll.
Langsame Ladezeiten: Sehr langsame Server können dazu führen, dass Googlebot Crawls abbricht oder die Crawl-Rate reduziert.
Übermäßig tiefe URL-Strukturen: Seiten, die mehr als vier Klicks von der Startseite entfernt liegen, werden seltener gecrawlt.

Ein strukturiertes Crawling-Audit mit Tools wie Screaming Frog, Sitebulb oder der Google Search Console deckt diese Probleme systematisch auf. HEEY führt solche Audits regelmäßig für Kunden aus Wiesbaden und dem gesamten Rhein-Main-Gebiet durch und priorisiert Maßnahmen nach Auswirkung auf die Sichtbarkeit.

Duplicate Content und Canonicalization: Wenn mehrere URLs um denselben Platz konkurrieren

Duplicate Content – also inhaltlich identische oder sehr ähnliche Seiten unter verschiedenen URLs – ist eines der häufigsten Indexierungsprobleme. Es entsteht nicht immer durch Absicht: URL-Parameter (etwa für Filter oder Tracking), HTTP- und HTTPS-Varianten, www- und non-www-Versionen oder Druckversionen von Seiten können unbemerkt Duplikate erzeugen. Google muss dann entscheiden, welche Variante es indexiert – und trifft dabei nicht immer die aus SEO-Sicht gewünschte Wahl.

Das Canonical-Tag (rel=„canonical“) löst dieses Problem: Es gibt Google explizit an, welche URL als „Hauptversion“ zu betrachten ist. Alle Linkkraft fließt auf die kanonische URL, Duplikate werden nicht indexiert. Wichtig: Das Canonical-Tag ist ein Hinweis, keine Direktive – Google kann es ignorieren, wenn es interne Widersprüche erkennt. Konsistenz zwischen Canonical-Tags, internen Links und Sitemap-Einträgen ist daher entscheidend.

Für Online-Shops – ein relevanter Anwendungsfall für viele Unternehmen im Rhein-Main-Gebiet – sind Canonicals bei gefilterten Kategorienseiten besonders wichtig. Eine Seite „Damenschuhe, gefiltert nach Größe 38“ sollte auf die Hauptkategorie „Damenschuhe“ kanonisiert werden, sofern sie keinen eigenständigen SEO-Wert hat.

Crawl-Budget-Optimierung für größere Websites

Das Crawl-Budget ist die Anzahl der URLs, die Googlebot innerhalb eines bestimmten Zeitraums auf einer Domain crawlt. Es setzt sich aus zwei Faktoren zusammen: der Crawl-Kapazität (wie viel Google crawlen kann, ohne den Server zu überlasten) und der Crawl-Nachfrage (wie oft Google eine Seite crawlen möchte, basierend auf Popularität und Änderungsfrequenz). Für kleine bis mittelgroße Websites ist Crawl-Budget selten ein Problem. Bei Websites mit zehntausenden URLs – etwa größere Shops, Portale oder Nachrichtenwebsites – kann es jedoch ein entscheidender Rankingfaktor sein.

Maßnahmen zur Crawl-Budget-Optimierung umfassen: das Blockieren unwichtiger URL-Varianten per robots.txt (Parameterseiten, Facetten-Navigation), das Konsolidieren von Duplikaten über Canonicals und 301-Weiterleitungen sowie das Verbessern der Serverantwortzeiten. Auch die interne Verlinkungsstruktur spielt eine Rolle: Seiten, die häufig intern verlinkt sind, werden öfter gecrawlt. Wer strategisch wichtige Seiten priorisieren möchte, sollte sicherstellen, dass sie prominent in der internen Linkstruktur verankert sind.

Die Google Search Console zeigt unter „Crawl-Statistiken“ detaillierte Daten: Wie viele Seiten crawlt Google pro Tag? Wie lange dauern die Crawls? Welche Dateitypen werden am häufigsten angefragt? Diese Daten liefern konkrete Ansatzpunkte für die Optimierung.

Indexierungsstatus prüfen und Probleme beheben

Die Google Search Console ist das wichtigste Werkzeug zur Überwachung von Crawling und Indexierung. Der Bericht „Seitenindexierung“ listet alle gecrawlten URLs und gruppiert sie nach Status. Besonders aufschlussreich ist die Kategorie der nicht indexierten Seiten: Hier zeigt Google an, warum eine Seite nicht aufgenommen wurde. Die häufigsten Gründe und ihre Lösungen:

„Crawled – currently not indexed“: Google hat die Seite gecrawlt, aber keinen ausreichenden Mehrwert erkannt. Lösung: Inhalt substanziell verbessern, interne Verlinkung stärken, Seite ggf. mit verwandten Inhalten zusammenführen.
„Discovered – currently not indexed“: Google kennt die URL, hat sie aber noch nicht gecrawlt. Lösung: Crawl-Budget prüfen, interne Verlinkung verbessern, URL in der Search Console manuell zur Indexierung anfordern.
„Page with redirect“: Die URL leitet weiter und wird nicht indexiert. Lösung: Sicherstellen, dass Sitemaps und interne Links direkt auf die Ziel-URL verweisen.
„Blocked by robots.txt“: Die Seite ist für Googlebot gesperrt. Lösung: robots.txt überprüfen und ggf. anpassen.

Einzelne URLs können in der Search Console über die „URL-Prüfung“ analysiert und zur Indexierung angefragt werden. Dieser Weg eignet sich für zeitkritische Inhalte – etwa eine neue Veranstaltungsseite für ein Event in Wiesbaden oder eine aktualisierte Produktseite. Für systematische Probleme ist jedoch eine strukturelle Lösung notwendig; manuelle Anfragen sind kein Ersatz für eine saubere technische Basis.

Crawling und Indexierung im lokalen SEO-Kontext

Für Unternehmen mit lokalem Fokus – Dienstleister, Einzelhändler, Gastronomen oder Handwerksbetriebe im Rhein-Main-Gebiet – hat die korrekte Indexierung standortbezogener Seiten direkte Auswirkungen auf die lokale Sichtbarkeit. Wer für Suchanfragen wie „Zahnarzt Wiesbaden-Nordost“ oder „Umzugsunternehmen Mainz“ gefunden werden möchte, muss sicherstellen, dass die entsprechenden Landingpages tatsächlich indexiert sind und inhaltlich klar den lokalen Bezug herstellen.

Ein häufiges Problem bei lokal ausgerichteten Websites: Standortseiten werden als Duplikate eingestuft, weil sie sich inhaltlich zu stark ähneln – etwa wenn für jede Stadt lediglich der Ortsname ausgetauscht wird, der restliche Text aber identisch bleibt. Google erkennt dieses Muster und indexiert solche Seiten entweder nicht oder rankt sie schlecht. Die Lösung liegt in echtem, ortsspezifischem Mehrwert: konkrete Referenzen, lokale Besonderheiten, spezifische Ansprechpartner oder regionale Informationen, die tatsächlich relevant für die jeweilige Zielgruppe sind.

HEEY begleitet Unternehmen aus Wiesbaden und dem gesamten Rhein-Main-Gebiet bei der technischen SEO-Analyse und der strategischen Optimierung von Crawling und Indexierung – mit dem Ziel, dass die richtigen Seiten im Index landen und für die relevanten lokalen Suchanfragen sichtbar werden.

Häufige Fragen

Wie lange dauert es, bis Google eine neue Seite indexiert?

Das variiert stark: Bei gut verlinkten, etablierten Domains kann die Indexierung wenige Stunden bis Tage dauern. Bei neuen Websites oder schwach verlinkten Seiten können es mehrere Wochen sein. Wer die Indexierung beschleunigen möchte, sollte die URL in der Google Search Console manuell zur Prüfung einreichen und sicherstellen, dass die Seite intern verlinkt und in der Sitemap enthalten ist.

Was bedeutet „Crawled – currently not indexed“ in der Search Console?

Google hat die Seite besucht und ausgelesen, sie aber nicht in den Index aufgenommen – in der Regel weil der Inhalt als zu dünn, als Duplikat oder als zu wenig nutzwertig eingestuft wurde. Die Lösung liegt nicht im technischen Bereich, sondern im Inhalt: Die Seite muss einen klaren, eigenständigen Mehrwert bieten, der sie von anderen Seiten der Domain und des Webs unterscheidet.

Kann eine Seite gecrawlt werden, ohne indexiert zu werden?

Ja, das ist sogar häufig. Crawling und Indexierung sind zwei getrennte Prozesse. Google crawlt eine Seite, um ihren Inhalt zu analysieren, entscheidet dann aber anhand von Qualitäts- und Relevanzsignalen, ob sie in den Index aufgenommen wird. Eine Seite mit wenig Inhalt, vielen Duplikaten oder schwacher interner Verlinkung wird möglicherweise gecrawlt, aber nicht indexiert.

Sollte ich alle Seiten meiner Website indexieren lassen?

Nein. Seiten ohne inhaltlichen Mehrwert – etwa Danke-Seiten nach Formularabsendung, interne Suchseiten, Login-Bereiche oder technische Parameter-URLs – sollten per noindex-Tag oder robots.txt vom Index ausgeschlossen werden. Das schont das Crawl-Budget und verhindert, dass Google-Ressourcen auf irrelevante Seiten verwendet werden, die dann wichtigen Inhalten fehlen.

Was ist der Unterschied zwischen robots.txt und dem noindex-Tag?

Die robots.txt blockiert den Zugang des Crawlers zur Seite – Google kann sie dann weder lesen noch indexieren. Das noindex-Tag erlaubt das Crawling, verhindert aber die Aufnahme in den Index. Wichtig: Eine per robots.txt gesperrte Seite kann trotzdem im Index erscheinen, wenn externe Links auf sie verweisen – Google kennt dann die URL, kann aber den Inhalt nicht lesen. Für eine sichere Deindexierung muss das noindex-Tag gesetzt und die robots.txt-Blockade aufgehoben werden.

Wie oft crawlt Google eine Website?

Die Crawl-Frequenz hängt von der Popularität der Domain, der Änderungsfrequenz der Inhalte und dem verfügbaren Crawl-Budget ab. Sehr aktive, stark verlinkte Websites werden täglich oder mehrfach täglich gecrawlt; kleinere, selten aktualisierte Seiten möglicherweise nur alle paar Wochen. Die Crawl-Statistiken in der Google Search Console geben Aufschluss über die tatsächliche Crawl-Aktivität auf der eigenen Domain.

Sie möchten Crawling Indexierung für Ihr Unternehmen nutzen?

Wir setzen es professionell um – sprechen Sie mit unseren SEO-Expert:innen.

Kostenlose Beratung

Crawling Indexierung