Aktualisiert am 3. Juni 2022
Bots, Crawler, Spider, Freshbots, Deepbots – die Google Bots hangeln sich durch Inhalte und an Links entlang. Er folgt den internen und externen Verlinkungen, sammelt und strukturiert Inhalte. Dieses Programm wird auch Robot (Roboter, weitgehend autonom arbeitende Maschine) genannt, weil es selbständig nach Inhalten sucht, erfasst, bewertet und katalogisiert.
Die robots.txt-Datei ist die Datei, in der man auflistet, welche Verzeichnisse, Dateien etc. von Suchmaschinen wie Google oder Bing gelesen werden dürfen. Wenn eine robots.txt vorhanden ist, gehört diese zu den ersten Anlaufstellen der Bots (oder Spider etc.).
robots.txt oder Meta-Tag Robot – wann verwendest du was?
Wenn du Inhalte von einer Indexierung ausschließen willst, eignet sich eine robots.txt-Datei nicht, durch die interne Linkstruktur kann diese Seite trotzdem indexiert werden.
Mit der robots.txt-Datei kannst du Suchmaschinen-Crawlern mitteilen, auf welche URLs deiner Website sie zugreifen können. Dies dient hauptsächlich dazu, eine Überlastung deiner Website mit Anfragen zu vermeiden. Sinn und Zweck von robots.txt-Dateien ist es nicht, Webseiten aus der Google Suche auszuschließen. Dafür solltest du das Indexieren mit noindex blockieren oder deine Seite mit einem Passwort schützen.
Google Support: Einführung zu robots.txt-Dateien
Mit einer robots.txt kannst verhindern, dass Bild-, Video- und Audiodateien in den Suchergebnissen angezeigt werden. Wie eine Indexierung verhindert wirst, kannst du weiter unter im Artikel lesen.
robots.txt abspeichern, aber wo?
Die robots.txt sollte sich im Root-Verzeichnis, also im Hauptverzeichnis der Homepage befinden, also da, wo auch die index.php oder index.html sich befindet. Nur dort wird sie von Google & Co. auch gefunden.
Es kann pro Domain nur eine robots.txt geben.
Bespiele einer robots.txt-Datei
Etwas verbieten & Sitemap
User-agent: Googlebot Disallow: /images/ Sitemap: https://digitalfahrschule.de/sitemap.xml
Das heißt der User-Agent mit dem Namen „Googlebot“ soll den Ordner digitalfahrschule.de/images/ inklusive Unterverzeichnisse nicht crawlen. Gleichzeitig gibt es einen Hinweis auf die XML-Sitemap.
Alles erlauben
User-agent: * Allow: /
Hier wird nichts verboten, sondern alles erlaubt. Manche Provider stellen dir eine robots.txt zur Verfügung, die dann so aussieht – inhaltlich überflüssig, denn die Bots crawlen alles, wenn es ihnen nicht explizit verboten wird.
Beispiel-robots.txt öffnen (öffnet sich in neuem Tab)
Verfügt deine Homepage über robots.txt?

Mit dem SEO-Analyse-Addon von WooRank kannst du auch die Technik der Homepage prüfen. In dem Bildbeispiel rechts kannst du sehen, die robots.txt ist vorhanden, eine XML-Sitemap auch, diese wird aber in den robots.txt nicht erwähnt (wie in Beispiel 1 oben)
https://addons.mozilla.org/de/firefox/addon/seo-website-analysis/?src=search , den Link ggf. kopieren und im Firefox öffnen.
Meta-Tag “robots” – follow, no-follow
<meta name=”robots” content=”index, follow”>
<meta name=”robots” content=no-follow”>
Wikipedia zum Beispiel verlinkt intern (innerhalb von Wikipedia.de) mit Follow-Links (der Crawler klettert an der Linkstruktur lang & sammelt die Inhalte) und nach extern mit No-Follow Links, d.h. fordert die Crawler auf, die Adresse nicht weiterzuverfolgen.
- index erlaubt das Indexieren von Websites, Standard, wenn nichts angegeben wird.
- follow bewirkt, dass der Crawler alle Links auf der Seite verfolgt und zur Indexierung untersucht, Standard, wenn nichts angegeben wird.
- noindex sorgt dafür, dass eine URL nicht indexiert wird oder aus dem Index entfernt wird, sollte sie bereits aufgenommen sein.
- nofollow verhindert, dass ein Crawler die Links der URL weiterverfolgt. Das bedeutet aber nicht, dass die Ziel-URLs von anderen URLs aus nicht verfolgt und ggf. indexiert werden können.
Meta-Tag Index – No-index
Noindex
<meta name=”robots” content=”noindex”> → wenn ich z.B. mein Impressum aus den SERP (-Sitelinks) heraushalten will
Archive – Cache
<meta name=”robots” content=”noarchiv” />
→ die Webseite nicht in den lokalen Zwischenspeicher (Cache) der Suchmaschinen aufgenommen.

Google stellte als erster Anbieter Kopien von Webseiten zur Verfügung, die in der Trefferliste unter dem Link Im Cache betrachtet werden können, auch wenn die ursprüngliche Seite auf dem Webserver sich bereits verändert hat oder nicht mehr existiert.
Meta-Tag Robots bestimmen mit Rank Math
Neben der Möglichkeit, die Serp-Snippets anzupassen, kannst du z.B. auch die Meta-Robots einstellen.
- Index > ja, bitte indiziere diese Seite
- Nofollow > Sollten Verlinkungen nach draußen existieren, bitte nicht folgen
- No Image Index > die Bilder/Grafiken dieser Seite bitte nicht indizieren
- No Index > Die ganze Seite nicht indizieren, nicht in den Suchergebnissen zeigen
- No Archive > bitte keinen Snippet mit Cache-Möglichekeit bereitstellen
- No Snippet > Indizieren ja, anzeigen in den SERP – nein
1 Gedanke zu „robots.txt – Was ist das?“