robots.txt erstellen und einreichen – Suchmaschinen und KI-Bots steuern

Aktualisiert am 5. Juni 2026

Dieser Artikel ist gehört zu der SEO-Checkliste für das SEO-Audit →

Denk daran, beim Erstellen oder Bearbeiten deiner Website eine robots.txt-Datei hinzuzufügen. Diese kleine Textdatei informiert die Robots der Suchmaschinen darüber, welche Teile deiner Website sie crawlen und indizieren dürfen.

Robots sind kleine Programme, die das Internet durchsuchen und Webseiten für Suchmaschinen finden und speichern. So gibt es z.B. Googlebots oder Bingbots, die Robots von Google und Bing.

Vorteile der robots.txt-Datei

Du kannst übrigens jedes Textprogramm nehmen und die Datei als .txt abspeichern.

  • Verbesserung der Ladezeit deiner Website, indem unwichtige Seiten vom Laden ausgeschlossen werden.
  • Verhindert, dass Suchmaschinen doppelte Inhalte auf deiner Website indizieren.
  • Schützt deine Website davor, dass spammige oder minderwertige Seiten indiziert werden.
  • Fokussiert deine SEO-Bemühungen auf die wichtigsten Seiten deiner Website.

Hat die Website eine Robots.txt ?

Das findest du ganz einfach heraus, indem du hinter Domain robots.txt schreibst: https://digitalfahrschule.de/robots.txt

Hier siehst du ein paar Beispiele für robots.txt-Dateien – nicht zu verwechseln mit dem Meta-Tag robots →

Wo muss diese Datei hin?

Ins Rootverzeichnis deine Website. Über FTP oder den Webspace deines Providers lädst du die Datei hoch.

robots.txt-Datei ins Root-Verzeichnis via FTP laden
robots.txt-Datei ins Root-Verzeichnis via FTP laden

Was die robots.txt nicht kann

Die robots.txt ist keine Sicherheitsmaßnahme, sondern eher eine freiwillige Verhaltensregel für Bots und Suchmaschinen.

Seriöse Suchmaschinen wie Google oder Bing halten sich normalerweise daran. Andere Bots können die Vorgaben jedoch ignorieren.

Die robots.txt:

  • schützt keine sensiblen Daten,
  • verhindert keinen direkten Zugriff auf Dateien,
  • und macht Inhalte nicht „unsichtbar“.

Geschützte Bereiche sollten deshalb zusätzlich abgesichert werden, zum Beispiel über Passwörter, Benutzerrechte oder serverseitige Einstellungen.

Außerdem bedeutet ein Eintrag in der robots.txt nicht automatisch, dass eine Seite niemals in Suchmaschinen auftaucht. Wenn andere Websites auf eine URL verlinken, kann sie unter Umständen trotzdem erscheinen.

Beispiele

Typisches Beispiel für deine Website

Oft ausreicheind: Erlauben, verbieten, informieren

User-agent: Googlebot
Disallow: /images/

Sitemap: https://digitalfahrschule.de/sitemap.xml

Das bedeutet, dass der User-Agent namens „Googlebot“ den Ordner digitalfahrschule.de/images/ samt Unterverzeichnissen nicht crawlen soll. Gleichzeitig wird auf die XML-Sitemap hingewiesen.

Alles erlauben

User-agent: *
Allow: /

Hier wird nichts verboten, sondern alles erlaubt. Manche Provider stellen dir eine robots.txt zur Verfügung, die so aussieht – inhaltlich überflüssig, da die Bots ohnehin alles crawlen, wenn ihnen nichts ausdrücklich verboten wird.

Mehrere Sitemaps

User-agent: * 
Allow: /  

Sitemap: https://domain.de/sitemap_index.xml
Sitemap: https://domain.de/post-sitemap.xml
Sitemap: https://domain.de/page-sitemap.xml
Sitemap: https://domain.de/tribe_events-sitemap.xml

Wenn du mehrere Sitemaps hast, wie z.B. Seiten, Beiträge und Veranstaltungen.

Beispiel einer ausführlichen robots.txt mit Erläuterung

User-agent: *
Disallow: /pfad/zu/verbotenem/verzeichnis/
Allow: /pfad/zu/erlaubtem/verzeichnis/

Sitemap: https://www.deinewebsite.de/sitemap.xml

User-agent: Googlebot
Allow: /images/
Disallow: /admin/

User-agent: Bingbot
Disallow: /geschuetzter/bereich/

Disallow: /?s=
Disallow: /search/

Erläuterung

  • User-agent: Diese Zeile gibt an, für welchen Webcrawler die Anweisungen gelten. Im ersten Fall (*) gelten die Anweisungen für alle Crawler. In den folgenden Zeilen werden Anweisungen für bestimmte Crawler definiert, z. B. Googlebot und Bingbot.
  • Disallow: Diese Zeile verbietet dem Crawler den Zugriff auf den angegebenen Pfad und alle Unterverzeichnisse. In unserem Beispiel ist der Zugriff auf das Verzeichnis /pfad/zu/verbotenem/verzeichnis/ für alle Crawler verboten.
    Disallow search: Interne Suchergebnisse bieten Besuchern einen Mehrwert, sollen aber meist nicht in den Suchergebnissen von Google erscheinen.
  • Allow: Diese Zeile erlaubt dem Crawler den Zugriff auf den angegebenen Pfad und alle Unterverzeichnisse. In unserem Beispiel ist der Zugriff auf das Verzeichnis /pfad/zu/erlaubtem/verzeichnis/ für alle Crawler erlaubt.
  • Sitemap: Diese Zeile gibt die URL der Sitemap-Datei deiner Website an. Die Sitemap-Datei enthält eine Liste aller URLs deiner Website, die von Suchmaschinen indexiert werden sollen.
  • Weitere User-Agent-Regeln: Du kannst weitere User-Agent-Regeln hinzufügen, um den Zugriff auf bestimmte Bereiche deiner Website zu steuern. In diesem Beispiel ist der Zugriff auf das Verzeichnis /images/ für den Googlebot erlaubt, während der Zugriff auf das Verzeichnis /admin/ für den Bingbot verboten ist.

Gut zu wissen

  • Die robots.txt-Datei ist eine Textdatei und darf keine HTML-Tags oder anderen Code enthalten.
  • Syntaxfehler in der robots.txt-Datei können dazu führen, dass Suchmaschinen deine Website nicht richtig crawlen können.

Du weisst jetzt, wie du Suchmaschinen bestimmte Bereiche deiner Website erlaubst oder verbietest. Es geht jetzt auch um KI und nicht mehr um die klassischen Suchmaschinen – Bing oder Google.

robots.txt und KI-Bots

Ich habe mich durch diesen Artikel von Vladimir Simović auf LinkedIn inspirieren lassen und bin etwas mehr in das Thema eingestiegen: https://www.linkedin.com/ ↑

Die dazugehörigen Bots heissen KI-Bots und einige reagieren darauf, indem sie einfach alle bekannten KI-Crawler blockieren. Davon halte ich nichts. Denn: Sichtbarkeit bedeutet auch, in der KI sichtbar zu sein! Ich würde nicht pauschal alle KI-Bots blockieren.

Viel sinnvoller ist es, genau hinzusehen:

  • Welche Bots trainieren KI?
  • Welche Bots liefern Suchergebnisse?
  • Welche Bots verursachen tatsächlich Probleme?
  • Und welche können sogar zusätzliche Sichtbarkeit bringen?

Für viele kleinere Websites ist eine gute Performance-Optimierung oft wichtiger als eine extrem komplizierte robots.txt.

Ich versuche hier, die verschiedenen Bots ein bisschen einzuordnen:

Trainings-Bots und Such-Bots sind nicht identisch

Bots wie:

  • GPTBot
  • ClaudeBot
  • Google-Extended

werden vor allem dafür genutzt, Inhalte für zukünftige KI-Modelle zu sammeln.

Daneben gibt es aber auch Such- und Antwort-Crawler wie:

  • PerplexityBot
  • OAI-SearchBot
  • Claude-SearchBot

Diese Systeme funktionieren eher wie Suchmaschinen. Sie durchsuchen Inhalte, um sie in aktuellen KI-Antworten oder Suchergebnissen anzuzeigen.

Wer pauschal alle KI-Bots blockiert, verhindert also möglicherweise nicht nur KI-Training, sondern verschwindet gleichzeitig auch aus zukünftigen KI-Suchen und Antwortsystemen.

Warum ich nicht pauschal alle KI-Bots sperren würde

Gerade kleine Unternehmen, Praxen, Blogs oder lokale Anbieter leben davon, online gefunden zu werden. Die Art, wie Menschen suchen, verändert sich jedoch gerade deutlich.

Viele Nutzer stellen ihre Fragen inzwischen direkt an:

  • ChatGPT
  • Perplexity
  • Gemini
  • Claude

Deshalb kann Sichtbarkeit in KI-Antworten künftig ähnlich wichtig werden wie klassische Google-Rankings.

Wer alle Bots sperrt, schottet sich möglicherweise unnötig ab.

Die robots.txt ist kein vollständiger Schutz

Wichtig ist außerdem: Die robots.txt ist keine technische Sperrmauer, sondern eher eine freiwillige Verhaltensregel für Bots. Suchmaschinen halten sich meist daran. Trotzdem verhindert eine robots.txt keinen grundsätzlichen Zugriff auf öffentlich erreichbare Inhalte.

Außerdem muss man unterscheiden zwischen:

  • Trainings-Crawlern
  • Such-Crawlern
  • normalen Browserzugriffen
  • und nutzerinitiierten Abrufen

Das Thema ist deutlich komplexer geworden als noch vor wenigen Jahren.

Wann ein Blockieren sinnvoll sein kann

Natürlich gibt es Situationen, in denen bestimmte Bots bewusst ausgeschlossen werden sollten.

Zum Beispiel:

  • geschützte Mitgliederbereiche
  • sensible Kundendaten
  • interne Dokumente
  • hohe Serverlast durch aggressive Bots
  • Inhalte, die ausdrücklich nicht für KI-Training genutzt werden sollen

Dann kann eine gezielte Sperrung sinnvoll sein.

Die robots.txt bleibt wichtig — aber sie ist inzwischen nicht mehr nur ein SEO- und Technik-Thema, sondern zunehmend auch eine strategische Entscheidung rund um Sichtbarkeit in KI-Systemen.

Welche Bots tatsächlich problematisch sein können

Nicht jeder Bot ist automatisch schlecht. Viele bekannte Suchmaschinen- und KI-Crawler verhalten sich heute relativ kontrolliert und respektieren die robots.txt.

Problematisch werden eher Bots, die:

  • sehr viele Anfragen in kurzer Zeit senden,
  • Inhalte massenhaft kopieren,
  • oder sich nicht an technische Regeln halten.

Dazu gehören zum Beispiel aggressive Scraper-Bots, Spam-Bots oder schlecht programmierte Crawler.

Aggressive Scraper-Bots

Diese Bots durchsuchen Websites oft sehr schnell und kopieren Inhalte automatisiert.

Scraper-Bots sind automatische Programme, die Websites systematisch durchsuchen und Inhalte wie Texte, Bilder oder Daten sammeln beziehungsweise kopieren. Manche arbeiten seriös, andere verursachen hohe Serverlast oder übernehmen Inhalte ohne Zustimmung.
To scrape: abschaben, abkratzen, absammeln

Das kann:

  • hohe Serverlast verursachen,
  • Websites verlangsamen,
  • unnötigen Traffic erzeugen,
  • oder Inhalte massenhaft übernehmen.

Gerade größere Blogs, Shops oder Nachrichtenseiten sind davon häufiger betroffen.

SEO- und Analyse-Tools

Auch manche SEO-Tools erzeugen starken Crawl-Traffic. Dazu gehören beispielsweise:

  • Ahrefs
  • Semrush
  • MJ12bot
  • DotBot

Diese Bots sind nicht „bösartig“, können aber kleine Hostingpakete belasten, wenn sehr viele Seiten gleichzeitig gecrawlt werden.

DotBot ist z.B.  ein Webcrawler von Moz bzw. wird für Linkdaten und SEO-Analysen genutzt

Selbst lokal installierte Programme wie Screaming Frog arbeiten technisch als Crawler: Das Tool läuft zwar auf dem eigenen Rechner, besucht aber aktiv die Website und ruft viele Seiten nacheinander ab.

Bots, die robots.txt ignorieren

Die eigentlichen Probleme verursachen häufig Bots, die sich gar nicht an die robots.txt halten.

Dazu zählen unter anderem:

  • Spam-Bots
  • Fake-Crawler
  • automatische Kopierer
  • manche Security-Scanner
  • schlecht programmierte KI-Scraper

Diese Systeme tarnen sich teilweise sogar als normale Browser.

Nicht jede langsame Website hat ein Bot-Problem

Viele kleine WordPress-Websites leiden eher unter:

  • schlechten Plugins,
  • riesigen Bildern,
  • fehlendem Caching,
  • veralteten Themes,
  • oder zu vielen externen Skripten.

Dann werden vorschnell KI-Bots blockiert, obwohl die eigentlichen Ursachen ganz woanders liegen.

Beispiel einer robots.txt, die KI teilweise aussperrt

Aber nochmal: Für viele Websites ist eine gute Performance wichtiger als eine komplizierte robots.txt.

robots.txt-EintragErklärung
User-agent: *Gilt für alle Bots und Suchmaschinen.
Disallow: /wp-admin/Der interne WordPress-Administrationsbereich soll nicht gecrawlt werden.
Allow: /wp-admin/admin-ajax.phpDiese Datei wird für wichtige WordPress-Funktionen benötigt und bleibt erreichbar.
Disallow: /cgi-bin/Verhindert das Crawlen alter Server-Systemordner.
Disallow: /trackback/Alte WordPress-Trackback-Funktionen sollen nicht indexiert werden.
Disallow: */feed/RSS-Feeds und Feed-Unterseiten werden ausgeschlossen, um Duplicate Content zu vermeiden.
Disallow: */comments/Kommentar-Unterseiten sollen nicht indexiert werden.
Disallow: /wp-login.phpDie Login-Seite muss normalerweise nicht von Suchmaschinen besucht werden.
Disallow: /?s=Interne WordPress-Suchergebnisse werden nicht indexiert.
Disallow: /search/Verhindert das Indexieren von Suchseiten mit „/search/“.
Sitemap: https://deinedomain.de/sitemap_index.xmlVerweist Suchmaschinen auf die XML-Sitemap der Website.
User-agent: MJ12botRichtet die folgenden Regeln speziell an den MJ12bot.
Disallow: /Der MJ12bot darf die Website komplett nicht crawlen.
User-agent: DotBotRichtet die folgenden Regeln speziell an den DotBot.
Disallow: /Der DotBot darf die Website komplett nicht crawlen.
# User-agent: GPTBotOptional auskommentierter Eintrag für OpenAI-Trainingscrawler.
# User-agent: ClaudeBotOptional auskommentierter Eintrag für Anthropic-Trainingscrawler.
# User-agent: Google-ExtendedOptional auskommentierter Eintrag für Googles KI-Trainingserweiterung.

 

1 Kommentar zu „robots.txt erstellen und einreichen – Suchmaschinen und KI-Bots steuern“

Schreibe einen Kommentar