Robots.txt & Meta-Robots

Eine einzige falsch gesetzte Zeile in der robots.txt kann dazu führen, dass Google Ihre gesamte Website ignoriert – und das, ohne dass Sie es sofort bemerken. Die robots.txt ist eine schlichte Textdatei, aber sie ist eines der mächtigsten Werkzeuge im Technical SEO: Sie entscheidet, welche Bereiche Ihrer Website Suchmaschinen-Crawler betreten dürfen und welche nicht. HEEY aus Wiesbaden zeigt Ihnen, wie Sie diese Datei korrekt aufsetzen, sinnvoll einsetzen und typische Fehler von vornherein vermeiden.

Was ist eine robots.txt und warum ist sie für SEO relevant?

Die robots.txt ist eine einfache Textdatei, die im Wurzelverzeichnis Ihrer Domain liegt – also erreichbar unter https://ihredomain.de/robots.txt. Sie spricht Suchmaschinen-Crawler über das sogenannte Robots Exclusion Protocol an und teilt ihnen mit, welche URLs oder Verzeichnisse gecrawlt werden dürfen und welche nicht. Das ist kein technisches Nischenthema, sondern Pflichtbestandteil jeder professionellen SEO-Strategie.

Wichtig zu verstehen: Die robots.txt ist eine Empfehlung, keine technische Sperre. Seriöse Crawler wie Googlebot halten sich daran, bösartige Bots jedoch nicht. Wer sensible Inhalte wirklich schützen möchte, braucht zusätzlich eine Passwortabsicherung oder einen Login. Für SEO-Zwecke ist die robots.txt jedoch das zentrale Steuerungsinstrument, um das Crawl-Budget sinnvoll zu verteilen und zu verhindern, dass unwichtige Seiten den Index verstopfen.

Für Unternehmen im Rhein-Main-Gebiet – ob ein Handwerksbetrieb in Mainz-Kastel, eine Kanzlei in Frankfurt-Sachsenhausen oder ein Onlineshop mit Sitz in Wiesbaden-Biebrich – gilt dasselbe: Wer lokal gefunden werden will, muss sicherstellen, dass Google die richtigen Seiten crawlt und indexiert. Eine schlecht konfigurierte robots.txt verhindert genau das.

Aufbau und Syntax: So ist eine robots.txt korrekt aufgebaut

Die Datei besteht aus sogenannten Blöcken, die jeweils mit einem User-agent-Eintrag beginnen. Dieser gibt an, für welchen Crawler die nachfolgenden Regeln gelten. Ein Sternchen (*) steht für alle Crawler. Danach folgen Disallow- und optional Allow-Anweisungen sowie am Ende häufig ein Verweis auf die Sitemap.

Ein typisches, korrektes Grundgerüst sieht so aus: User-agent: * in der ersten Zeile, darunter Disallow: /wp-admin/ (für WordPress-Seiten), Disallow: /intern/ für interne Bereiche und abschließend Sitemap: https://ihredomain.de/sitemap.xml. Leerzeilen zwischen den Blöcken sind Pflicht – fehlen sie, interpretieren Crawler die Regeln möglicherweise falsch. Groß- und Kleinschreibung bei Pfaden spielt eine Rolle: /Produkte/ und /produkte/ sind für Crawler zwei unterschiedliche Pfade.

Ein häufiger Fehler, den HEEY in Audits immer wieder sieht: Entwickler tragen Disallow: / ein, um während der Entwicklungsphase alle Crawler auszusperren – und vergessen, diese Zeile vor dem Launch zu entfernen. Das Ergebnis ist eine Website, die für Google komplett unsichtbar ist. Dieser Fehler ist im Google Search Console unter „Crawling“ sofort erkennbar, wird aber oft erst Wochen später bemerkt.

Welche Bereiche sollten Sie sperren – und welche auf keinen Fall?

Nicht jeder Bereich Ihrer Website verdient Googles Aufmerksamkeit. Seiten, die keinen SEO-Wert haben, verbrauchen Crawl-Budget – also die begrenzte Zeit, die Googlebot pro Website investiert. Gerade bei großen Shops oder Portalen mit tausenden URLs ist eine gezielte Steuerung über die robots.txt entscheidend.

Typische Bereiche, die sinnvollerweise gesperrt werden:

/wp-admin/ und andere CMS-Backend-Bereiche
/checkout/, /warenkorb/ und transaktionale Prozessseiten ohne Indexierungswert
/suche/ oder dynamisch generierte Suchergebnisseiten mit URL-Parametern
/danke/-Seiten nach Formulareinsendungen
Staging- oder Testverzeichnisse wie /staging/ oder /dev/
Doppelte Inhalte durch Filterkombinationen, z. B. /produkte/?farbe=rot&groesse=xl

Was Sie niemals sperren sollten: Ihre wichtigen Landingpages, Blogartikel, Produktseiten und alle URLs, die in der Sitemap aufgeführt sind. Ein klassischer Widerspruch, der in Audits häufig auftaucht: Die Sitemap enthält eine URL, die gleichzeitig in der robots.txt gesperrt ist. Google ignoriert in diesem Fall die Sitemap-Empfehlung – die Seite wird nicht gecrawlt.

Robots.txt und Crawl-Budget: Besonders relevant für größere Websites

Das Crawl-Budget beschreibt, wie viele Seiten Googlebot innerhalb eines bestimmten Zeitraums auf Ihrer Website crawlt. Bei kleinen Websites mit unter 100 Seiten ist das kaum ein Thema – Google crawlt ohnehin alles. Sobald eine Website aber mehrere tausend URLs umfasst, wird die Steuerung über die robots.txt strategisch wichtig.

Ein konkretes Beispiel aus der Praxis: Ein Wiesbadener Immobilienportal mit tausenden Objektseiten, von denen viele bereits verkauft oder vermietet sind, profitiert erheblich davon, abgelaufene Anzeigen über die robots.txt oder einen noindex-Tag auszusteuern. Crawlt Google diese Seiten weiterhin, fehlt das Budget für neue, relevante Objekte. Das verzögert die Indexierung und schadet dem Ranking frischer Inhalte.

Für lokale Dienstleister in Wiesbaden, Mainz oder dem Rheingau mit überschaubaren Websites ist das Crawl-Budget selten ein akutes Problem. Hier liegt der Fokus eher darauf, keine kritischen Fehler zu machen – also keine wichtigen Seiten versehentlich zu sperren und die Datei sauber zu pflegen, wenn neue Bereiche hinzukommen.

Robots.txt vs. noindex: Was ist der Unterschied?

Dieser Unterschied wird regelmäßig verwechselt, auch von erfahrenen Webmastern. Die robots.txt steuert das Crawlen – also ob ein Bot eine Seite besucht. Der noindex-Meta-Tag steuert das Indexieren – also ob eine gecrawlte Seite in den Suchergebnissen erscheint. Beide Mechanismen haben unterschiedliche Auswirkungen und sollten nicht vermischt werden.

Das Problem: Wenn Sie eine Seite per robots.txt sperren und gleichzeitig einen noindex-Tag setzen, kann Google den noindex-Tag gar nicht lesen – denn Googlebot darf die Seite ja nicht besuchen. Die Seite könnte trotzdem im Index landen, weil Google sie über externe Links kennt, nur ohne den Inhalt zu kennen. Das führt zu leeren Suchergebniseinträgen ohne Snippet. Die saubere Lösung: Seiten, die nicht indexiert werden sollen, per noindex kennzeichnen und gleichzeitig für Crawler zugänglich lassen.

HEEY empfiehlt: Nutzen Sie die robots.txt gezielt für Bereiche, die wirklich nicht gecrawlt werden müssen (Backend, Prozessseiten, Duplikate). Für alles, was Google zwar crawlen, aber nicht indexieren soll – etwa interne Suchseiten oder Danke-Seiten – ist der noindex-Tag das richtige Werkzeug.

Typische Fehler in der robots.txt und wie Sie sie vermeiden

In SEO-Audits begegnen uns bei HEEY immer wieder dieselben Fehler – bei Websites aus Frankfurt, Darmstadt, Wiesbaden und dem gesamten Rhein-Main-Gebiet. Viele davon entstehen nicht aus Unwissenheit, sondern aus Unachtsamkeit oder weil die Datei nach einem Relaunch nicht aktualisiert wurde.

Die häufigsten Fehler im Überblick:

Disallow: / nach dem Launch vergessen zu entfernen – die Website ist für Google komplett gesperrt
Wichtige Seiten gesperrt, die in der Sitemap stehen – widersprüchliche Signale an Google
Keine Sitemap-Angabe in der robots.txt – verpasste Chance, Google direkt auf die Sitemap hinzuweisen
Falsche Groß-/Kleinschreibung bei Pfaden – /Kontakt/ und /kontakt/ werden unterschiedlich behandelt
Veraltete Crawler-Namen – manche Einträge sperren Bots, die längst nicht mehr existieren, während aktuelle Crawler ignoriert werden
Kein regelmäßiges Monitoring – die robots.txt wird einmal angelegt und danach nie wieder geprüft

Die Lösung ist einfach: Prüfen Sie Ihre robots.txt nach jedem Relaunch, nach CMS-Updates und mindestens einmal pro Quartal. Die Google Search Console zeigt unter „Crawling“ direkt an, ob und welche Seiten durch die robots.txt blockiert werden. Nutzen Sie außerdem das integrierte robots.txt-Testtool in der Search Console, um einzelne URLs zu überprüfen.

Robots.txt korrekt testen und überwachen

Bevor Sie Änderungen an der robots.txt live schalten, sollten Sie diese immer testen. Google stellt in der Search Console ein eigenes robots.txt-Testtool bereit, mit dem Sie prüfen können, ob eine bestimmte URL durch Ihre aktuellen Regeln gesperrt oder freigegeben wird. Geben Sie einfach die URL ein und wählen Sie den Crawler – das Tool zeigt Ihnen sofort, welche Regel greift.

Für eine kontinuierliche Überwachung empfiehlt HEEY den Einsatz von Crawling-Tools wie Screaming Frog oder Sitebulb. Diese Tools simulieren das Verhalten von Googlebot und zeigen Ihnen, welche Seiten gecrawlt werden und welche durch die robots.txt blockiert sind. Besonders nach einem Relaunch oder einer Migration ist dieser Check unverzichtbar.

Zusätzlich lohnt es sich, Alerts einzurichten: Sobald sich die robots.txt verändert – etwa durch ein Plugin-Update bei WordPress – sollten Sie informiert werden. Einige Monitoring-Dienste bieten genau diese Funktion an und schlagen Alarm, wenn sich der Inhalt der Datei ändert. Das klingt nach Overkill, ist aber für Websites mit ernsthafter SEO-Relevanz absolut sinnvoll.

Robots.txt im lokalen SEO-Kontext: Was Wiesbadener Unternehmen beachten sollten

Für lokale Unternehmen im Rhein-Main-Gebiet ist die robots.txt in der Regel kein komplexes Thema – aber sie ist dennoch relevant. Wer als Zahnarzt in Wiesbaden-Erbenheim, als Steuerberater in Mainz-Gonsenheim oder als Eventagentur in Bad Homburg lokal gefunden werden möchte, muss sicherstellen, dass Google die richtigen Seiten indexiert: die Startseite, die Leistungsseiten und idealerweise lokale Landingpages für einzelne Stadtteile oder Nachbarstädte.

Gerade bei WordPress-basierten Websites – die im lokalen Mittelstand sehr verbreitet sind – ist Vorsicht geboten. Manche SEO-Plugins wie Yoast SEO oder Rank Math schreiben die robots.txt automatisch. Das ist praktisch, birgt aber das Risiko, dass bei einem Update ungewollte Änderungen entstehen. HEEY empfiehlt, die robots.txt auch bei kleinen Websites regelmäßig manuell zu kontrollieren und nicht blind auf Plugin-Automatismen zu vertrauen.

Ein weiterer Aspekt für lokale Websites: Wenn Sie mehrere Standorte betreiben – etwa eine Kette mit Filialen in Wiesbaden, Rüsselsheim und Offenbach – sollten Sie für jede Domain oder Subdomain eine eigene robots.txt pflegen. Subdomains erben die robots.txt der Hauptdomain nicht automatisch. Das ist ein häufig übersehener Punkt, der bei Multi-Location-Strategien schnell zu Problemen führt.

Robots.txt als Teil einer ganzheitlichen Technical-SEO-Strategie

Die robots.txt ist kein isoliertes Werkzeug, sondern ein Baustein innerhalb einer umfassenden Technical-SEO-Strategie. Sie wirkt zusammen mit der XML-Sitemap, den Canonical-Tags, dem internen Verlinkungskonzept und der Seitenstruktur. Nur wenn alle diese Elemente aufeinander abgestimmt sind, entfaltet Technical SEO seine volle Wirkung.

HEEY betrachtet die robots.txt deshalb immer im Gesamtkontext eines SEO-Audits. Eine saubere robots.txt allein reicht nicht aus, wenn gleichzeitig die Sitemap veraltet ist, Canonical-Tags fehlen oder wichtige Seiten keine internen Links erhalten. Umgekehrt kann eine fehlerhafte robots.txt alle anderen Optimierungsmaßnahmen zunichtemachen – selbst wenn Inhalte, Backlinks und Ladezeiten optimal sind.

Wenn Sie unsicher sind, ob Ihre robots.txt korrekt konfiguriert ist, oder wenn Sie nach einem Relaunch sichergehen wollen, dass Google die richtigen Seiten crawlt: HEEY führt für Unternehmen im Rhein-Main-Gebiet strukturierte Technical-SEO-Audits durch, die genau diese Punkte prüfen – konkret, nachvollziehbar und ohne unnötigen Fachjargon.

Häufige Fragen

Kann ich mit der robots.txt verhindern, dass meine Seite bei Google erscheint?

Nicht zuverlässig. Die robots.txt verhindert das Crawlen, nicht das Indexieren. Google kann eine gesperrte URL trotzdem in den Index aufnehmen, wenn externe Links darauf verweisen – nur ohne den Seiteninhalt zu kennen. Wer eine Seite sicher aus dem Index halten will, muss einen noindex-Meta-Tag setzen und die Seite gleichzeitig für Crawler zugänglich lassen.

Wie finde ich heraus, ob meine robots.txt Probleme verursacht?

Rufen Sie zunächst https://ihredomain.de/robots.txt direkt im Browser auf und prüfen Sie den Inhalt. In der Google Search Console finden Sie unter dem Bereich „Crawling“ das robots.txt-Testtool, mit dem Sie einzelne URLs gegen Ihre aktuellen Regeln testen können. Screaming Frog zeigt Ihnen beim Crawl ebenfalls, welche URLs durch die robots.txt blockiert werden.

Muss ich für jede Subdomain eine eigene robots.txt anlegen?

Ja. Subdomains wie shop.ihredomain.de oder blog.ihredomain.de benötigen jeweils eine eigene robots.txt unter ihrer eigenen Root-URL. Die Datei der Hauptdomain gilt nicht automatisch für Subdomains. Vergessen Sie das, kann es passieren, dass Crawler auf Subdomains unkontrolliert agieren.

Was passiert, wenn meine robots.txt nicht erreichbar ist?

Gibt der Server einen 500-Fehler zurück, behandelt Googlebot die gesamte Website vorübergehend so, als wäre sie vollständig gesperrt – und stellt das Crawlen ein. Bei einem 404-Fehler (Datei nicht gefunden) geht Googlebot davon aus, dass es keine Einschränkungen gibt, und crawlt alles. Stellen Sie sicher, dass Ihre robots.txt stets erreichbar ist und korrekt mit Status 200 antwortet.

Wie oft sollte ich meine robots.txt überprüfen?

Mindestens nach jedem Relaunch, nach größeren CMS-Updates und nach der Installation oder Aktualisierung von SEO-Plugins. Darüber hinaus empfiehlt HEEY eine quartalsweise Routineprüfung. Bei aktiv wachsenden Websites oder häufigen Strukturänderungen sollte die Prüffrequenz höher liegen.

Darf ich in der robots.txt auch einzelne Dateitypen sperren?

Ja, das ist möglich. Mit Disallow: /*.pdf$ können Sie beispielsweise alle PDF-Dateien vom Crawling ausschließen. Ob das sinnvoll ist, hängt vom Einzelfall ab: PDFs mit relevantem Inhalt – etwa Produktdatenblätter oder Ratgeber – können durchaus Indexierungswert haben und sollten nicht pauschal gesperrt werden.

Sie möchten Robots Txt für Ihr Unternehmen nutzen?

Wir setzen es professionell um – sprechen Sie mit unseren SEO-Expert:innen.

Kostenlose Beratung

Robots Txt