Eine robots.txt ist eine einfache Textdatei im Wurzelverzeichnis einer Website, die Suchmaschinen-Crawlern mitteilt, welche Bereiche sie crawlen dürfen und welche nicht. Sie folgt dem Robots Exclusion Protocol und steuert so den Zugriff von Bots auf Seiten, Verzeichnisse oder Parameter – ohne jedoch eine Indexierung zu verhindern.
Die robots.txt-Datei ist eines der ältesten und zugleich am häufigsten missverstandenen Werkzeuge im technischen SEO. Falsch konfiguriert, blockiert sie versehentlich wichtige Seiten vor Suchmaschinen – mit unmittelbaren Folgen für Rankings und Sichtbarkeit. HEEY erklärt, wie die Datei korrekt aufgebaut wird, was sie leisten kann und wo ihre Grenzen liegen.
Was ist die robots.txt und wie funktioniert sie?
Die robots.txt liegt immer unter der Domain-Root, also erreichbar unter https://www.example.com/robots.txt. Ruft ein Crawler wie Googlebot eine Website auf, liest er diese Datei als Erstes aus, bevor er eine einzige URL der Domain besucht. Anhand der dort definierten Regeln entscheidet er, welche Pfade er aufrufen darf und welche nicht.
Die Datei folgt einer klaren Syntax: Ein User-agent-Block benennt den jeweiligen Bot (oder * für alle Bots), darunter stehen Disallow- und Allow-Direktiven für Pfade. Zusätzlich kann eine Sitemap-Direktive auf die XML-Sitemap verweisen, was Crawlern die Entdeckung aller relevanten URLs erleichtert. Das Protokoll ist ein freiwilliger Standard – seriöse Suchmaschinen halten sich daran, Schadprogramme nicht.
Wichtig: Die robots.txt steuert ausschließlich das Crawling, nicht die Indexierung. Eine per Disallow gesperrte URL kann Google dennoch indexieren, wenn andere Seiten darauf verlinken – nur der Inhalt bleibt dem Bot unbekannt. Wer Indexierung verhindern will, muss zusätzlich ein Noindex-Meta-Tag oder einen X-Robots-Tag im HTTP-Header setzen.
Relevanz für das Crawl Budget und technisches SEO
Das Crawl Budget beschreibt, wie viele URLs Googlebot innerhalb eines bestimmten Zeitraums auf einer Domain crawlt. Bei großen Websites – etwa Shops mit Tausenden von Filterkombinationen oder News-Portalen mit tiefen Archivstrukturen – ist dieses Budget begrenzt. Eine durchdachte robots.txt verhindert, dass Crawler Zeit mit irrelevanten URLs verschwenden, die nie ranken sollen: Suchergebnis-Seiten der internen Suche, Session-IDs, Druckversionen oder Staging-Verzeichnisse.
Für kleine und mittlere Websites ist das Crawl-Budget selten ein kritischer Faktor. Dennoch schafft eine saubere robots.txt Ordnung im technischen Fundament und signalisiert professionellen Umgang mit der eigenen Website-Architektur. HEEY empfiehlt, die Datei in jedem technischen SEO-Audit als festen Prüfpunkt zu behandeln.
robots.txt vs. Meta Robots vs. Noindex: Abgrenzung und häufige Verwechslungen
Die drei Mechanismen werden im Alltag oft verwechselt, erfüllen aber unterschiedliche Aufgaben. Die robots.txt steuert, ob ein Crawler eine URL überhaupt besucht. Das Meta-Robots-Tag (im HTML-Head) und der X-Robots-Tag (im HTTP-Header) steuern, was mit dem Inhalt einer bereits gecrawlten URL geschieht – etwa ob sie indexiert oder ob ihren Links gefolgt werden soll.
Der kritische Fehler: Wer eine URL per robots.txt sperrt und gleichzeitig möchte, dass ein dort hinterlegtes Noindex-Tag wirkt, erzielt das Gegenteil. Googlebot kann das Noindex-Tag nicht lesen, wenn er die Seite nicht crawlen darf. Die URL bleibt damit potenziell im Index – ohne dass der Bot den Inhalt kennt. Canonical-Tags auf gesperrten Seiten werden aus demselben Grund ignoriert.
Ebenso zu unterscheiden ist die robots.txt von der Sitemap: Die Sitemap teilt Suchmaschinen mit, welche URLs existieren und gecrawlt werden sollen. Die robots.txt sagt, welche URLs nicht gecrawlt werden sollen. Beide Dateien ergänzen sich und sollten konsistent sein.
Aufbau und Syntax: So sieht eine korrekte robots.txt aus
Eine valide robots.txt besteht aus einem oder mehreren Blöcken. Jeder Block beginnt mit einer User-agent-Zeile, gefolgt von Direktiven. Leerzeilen trennen Blöcke voneinander. Kommentare beginnen mit einem #-Zeichen und werden von Crawlern ignoriert.
- User-agent: * – gilt für alle Bots
- Disallow: /intern/ – sperrt das Verzeichnis /intern/ und alle darin enthaltenen Pfade
- Disallow: /suche? – sperrt alle URLs mit dem Parameter ?suche
- Allow: /intern/offen/ – erlaubt explizit einen Unterpfad innerhalb eines gesperrten Verzeichnisses
- Sitemap: https://www.example.com/sitemap.xml – verweist auf die XML-Sitemap
- Crawl-delay: 2 – empfiehlt eine Pause von 2 Sekunden zwischen Anfragen (von Googlebot nicht unterstützt, aber von anderen Bots)
Groß- und Kleinschreibung bei Pfaden ist relevant: /Admin/ und /admin/ sind unterschiedliche Pfade. Wildcards (*) und das Zeilenende-Zeichen ($) erlauben flexible Musterabgleiche. Die Datei muss als UTF-8 gespeichert und über HTTPS ausgeliefert werden.
Typische Fehler und Best Practices
In der Praxis begegnen HEEY-Experten immer wieder denselben Konfigurationsfehlern, die teils schwerwiegende SEO-Schäden verursachen:
- Komplette Sperrung der Domain: Disallow: / für alle User-agents blockiert sämtliche Crawler – häufig versehentlich nach einem Relaunch aus der Entwicklungsumgebung übernommen.
- Sperrung von CSS- und JavaScript-Dateien: Googlebot benötigt Zugriff auf Ressourcen, um Seiten korrekt zu rendern. Gesperrte Styles oder Scripts führen zu fehlerhaftem Rendering und schlechteren Rankings.
- Widersprüchliche Regeln: Wenn Disallow- und Allow-Direktiven denselben Pfad betreffen, gilt bei Googlebot die spezifischere Regel – nicht die zuletzt genannte.
- Sensible Bereiche nicht gesperrt: Admin-Bereiche, Staging-Umgebungen, interne Suchen oder Warenkorb-URLs sollten konsequent gesperrt sein.
- Keine Sitemap-Direktive: Viele robots.txt-Dateien verzichten auf den Sitemap-Verweis, obwohl dieser die Crawl-Effizienz messbar verbessert.
- Fehler in der Syntax: Leerzeichen vor Direktiven, fehlende Zeilenumbrüche oder falsche Zeichenkodierung machen einzelne Regeln unwirksam.
Best Practice ist es, die robots.txt nach jeder Änderung mit dem robots.txt-Tester in der Google Search Console zu validieren. HEEY empfiehlt außerdem, die Datei unter Versionskontrolle zu stellen, damit Änderungen nachvollziehbar bleiben.
robots.txt für lokale Unternehmen im Rhein-Main-Gebiet
Für lokale Unternehmen in Wiesbaden, Frankfurt, Mainz oder Darmstadt ist die robots.txt auf den ersten Blick weniger kritisch als für große E-Commerce-Plattformen. Dennoch gibt es praxisrelevante Szenarien: Wer eine mehrsprachige Website betreibt, einen Buchungsbereich integriert oder ein Kundenkonto-System nutzt, muss gezielt steuern, welche Bereiche Crawler sehen sollen und welche nicht.
Besonders relevant ist die Datei beim Website-Relaunch – einem häufigen Anlass für lokale Unternehmen, die ihre Online-Präsenz modernisieren. Wird die robots.txt der Entwicklungsumgebung versehentlich auf die Live-Domain übertragen, verliert die Website innerhalb weniger Tage ihre gesamte Sichtbarkeit. HEEY prüft im Rahmen jedes technischen Audits und jedes Relaunch-Projekts die robots.txt als ersten Schritt, bevor weitere Maßnahmen greifen.
Lokale Landingpages für einzelne Stadtteile oder Dienstleistungsgebiete sollten explizit nicht gesperrt sein – sie sind ein zentrales Instrument im Local SEO und müssen von Googlebot vollständig gecrawlt und indexiert werden können.
robots.txt prüfen und überwachen: Tools und Vorgehen
Die Google Search Console bietet unter „Crawling“ einen integrierten robots.txt-Tester, mit dem sich einzelne URLs gegen die aktuell hinterlegte Datei prüfen lassen. Zusätzlich zeigt die Search Console Crawl-Fehler und gesperrte Ressourcen an, die auf fehlerhafte Regeln hinweisen können.
Ergänzend empfiehlt HEEY den Einsatz von Crawling-Tools wie Screaming Frog oder Sitebulb, die die robots.txt beim Crawl automatisch auswerten und gesperrte URLs im Report kennzeichnen. So lassen sich Inkonsistenzen zwischen der robots.txt und der Sitemap schnell identifizieren. Eine regelmäßige Überprüfung – mindestens nach jedem Deployment und nach größeren Inhaltsaktualisierungen – ist fester Bestandteil einer professionellen technischen SEO-Strategie.
Häufige Fragen
Was passiert, wenn die robots.txt eine wichtige Seite sperrt?
Googlebot crawlt die gesperrte URL nicht und kann deren Inhalt, interne Links und strukturierte Daten nicht verarbeiten. Die Seite kann dennoch im Index erscheinen, wenn externe Links auf sie verweisen – allerdings ohne Titel und Beschreibung, was zu unattraktiven Suchergebnis-Einträgen führt. Im schlimmsten Fall verliert die betroffene Seite alle Rankings.
Wie unterscheidet sich robots.txt von einem Noindex-Tag?
Die robots.txt steuert das Crawling: Sie verhindert, dass ein Bot eine URL überhaupt aufruft. Das Noindex-Tag steuert die Indexierung: Es teilt einem Bot, der die Seite bereits gecrawlt hat, mit, sie nicht in den Index aufzunehmen. Beide Mechanismen lösen unterschiedliche Probleme und dürfen nicht kombiniert werden, wenn das Ziel eine vollständige Deindexierung ist.
Warum sollte man CSS- und JavaScript-Dateien nicht in der robots.txt sperren?
Googlebot rendert Webseiten ähnlich wie ein Browser und benötigt dafür Zugriff auf alle Ressourcen. Sind Stylesheets oder Scripts gesperrt, sieht der Crawler eine unvollständige Version der Seite, was die Bewertung von Layout, Ladezeit und Inhalt negativ beeinflusst. Google empfiehlt ausdrücklich, Crawlern uneingeschränkten Zugriff auf Ressourcen zu gewähren.
Wann sollte man die robots.txt anpassen?
Eine Anpassung ist sinnvoll vor einem Website-Relaunch, bei der Einführung neuer Verzeichnisstrukturen, beim Hinzufügen interner Suchfunktionen oder Filterparagraphen sowie nach der Migration auf HTTPS. Auch nach der Einbindung eines neuen CMS oder Shopsystems sollte die Datei geprüft werden, da viele Systeme automatisch eine robots.txt generieren, die nicht immer optimal konfiguriert ist.
Wie findet man die robots.txt einer Website?
Die robots.txt ist immer unter dem Pfad <strong>/robots.txt</strong> direkt hinter der Domain erreichbar, also etwa https://www.example.com/robots.txt. Sie kann im Browser aufgerufen, mit der Google Search Console validiert oder mit Crawling-Tools automatisch ausgewertet werden. Gibt es keine robots.txt, behandeln Suchmaschinen dies so, als wären alle Bereiche für das Crawling freigegeben.
Kann die robots.txt eine Website vor Hackern schützen?
Nein. Die robots.txt ist eine öffentlich zugängliche Datei und bietet keinerlei Sicherheitsschutz. Sie richtet sich an kooperative Bots, die das Robots Exclusion Protocol respektieren. Schadprogramme und automatisierte Angriffe ignorieren die Datei vollständig. Sensible Bereiche müssen durch Authentifizierung, Zugriffsrechte und serverseitige Maßnahmen geschützt werden.
Wir helfen Ihnen, in Google und Maps nach vorne zu kommen.