robots.txt oder Meta-Tag Robot - wann verwendest du was?

robots.txt oder Meta-Tag Robot?
Meta-Tag “robots” – follow, no-follow
Meta-Tag Index – No-index
- Noindex
- Archive – Cache
Meta-Tag Robots bestimmen mit Rank Math

Aktualisiert am 5. Juni 2024

Bots, Crawler, Spider, Freshbots, Deepbots – die Google Bots hangeln sich durch Inhalte und an Links entlang. Er folgt den internen und externen Verlinkungen, sammelt und strukturiert Inhalte. Dieses Programm wird auch Robot (Roboter, weitgehend autonom arbeitende Maschine) genannt, weil es selbständig nach Inhalten sucht, erfasst, bewertet und katalogisiert.

Die robots.txt-Datei ist die Datei, in der man auflistet, welche Verzeichnisse, Dateien etc. von Suchmaschinen wie Google oder Bing gelesen werden dürfen. Wenn eine robots.txt vorhanden ist, gehört diese zu den ersten Anlaufstellen der Bots (oder Spider etc.). Zusätzlich können auch noFollow-Hinweise in der HTML-Struktur einer Seite verwendet werden, um den Crawlern mitzuteilen, welche Links sie ignorieren sollen, selbst wenn sie durch die robots.txt-Datei Zugang haben.

robots.txt oder Meta-Tag Robot?

Wenn du Inhalte von einer Indexierung ausschließen willst, eignet sich eine robots.txt-Datei nicht, durch die interne Linkstruktur kann diese Seite trotzdem indexiert werden.

Mit der robots.txt-Datei kannst du Suchmaschinen-Crawlern mitteilen, auf welche URLs deiner Website sie zugreifen können. Dies dient hauptsächlich dazu, eine Überlastung deiner Website mit Anfragen zu vermeiden. Sinn und Zweck von robots.txt-Dateien ist es nicht, Webseiten aus der Google Suche auszuschließen. Dafür solltest du das Indexieren mit noindex blockieren oder deine Seite mit einem Passwort schützen.
Google Support: Einführung zu robots.txt-Dateien

Mit einer robots.txt kannst verhindern, dass Bild-, Video- und Audiodateien in den Suchergebnissen angezeigt werden. Wie eine Indexierung verhindert wirst, kannst du weiter unter im Artikel lesen.

robots.txt abspeichern, aber wo?

Die robots.txt sollte sich im Root-Verzeichnis, also im Hauptverzeichnis der Homepage befinden, also da, wo auch die index.php oder index.html sich befindet. Nur dort wird sie von Google & Co. auch gefunden.

Es kann pro Domain nur eine robots.txt geben.

Bespiel 1 einer robots.txt-Datei

Etwas verbieten & Sitemap

User-agent: Googlebot
Disallow: /images/

Sitemap: https://digitalfahrschule.de/sitemap.xml

Das heißt der User-Agent mit dem Namen „Googlebot“ soll den Ordner digitalfahrschule.de/images/ inklusive Unterverzeichnisse nicht crawlen. Gleichzeitig gibt es einen Hinweis auf die XML-Sitemap.

Alles erlauben

User-agent: *
Allow: /

Hier wird nichts verboten, sondern alles erlaubt. Manche Provider stellen dir eine robots.txt zur Verfügung, die dann so aussieht – inhaltlich überflüssig, denn die Bots crawlen alles, wenn es ihnen nicht explizit verboten wird.

Mehrere Sitemaps

User-agent: * 
Allow: /  

Sitemap: https://domain.de/sitemap_index.xml
Sitemap: https://domain.de/post-sitemap.xml
Sitemap: https://domain.de/page-sitemap.xml
Sitemap: https://domain.de/tribe_events-sitemap.xml

Wenn du mehrere Sitemaps hast, was der Fall ist, wenn du z.B. Seiten, Beiträge und Veranstaltungen hast.

Beispiel-robots.txt öffnen (öffnet sich in neuem Tab)

Beispiel 2

User-agent: *
Disallow: /private/
Disallow: /temp/
Disallow: /old-pages/
Disallow: /no-index.html

# Block a specific crawler
User-agent: BadBot
Disallow: /

# Allow all content for a specific crawler
User-agent: GoodBot

Disallow:

Dies bedeutet, dass die folgenden Regeln für alle Crawler gelten.
Disallow: /private/

Verhindert, dass Crawler auf alle Seiten und Dateien im Verzeichnis /private/ zugreifen.
Disallow: /temp/

Verhindert, dass Crawler auf alle Seiten und Dateien im Verzeichnis /temp/ zugreifen.
Disallow: /old-pages/

Verhindert, dass Crawler auf alle Seiten und Dateien im Verzeichnis /old-pages/ zugreifen.
Disallow: /no-index.html

Verhindert, dass Crawler auf die spezifische Datei /no-index.html zugreifen.
User-agent: BadBot

Gibt an, dass die folgende Regel nur für den Crawler mit dem User-Agent-Namen “BadBot” gilt.
Disallow: /

Verhindert, dass der Crawler “BadBot” auf irgendeinen Teil der Website zugreift.
User-agent: GoodBot

Gibt an, dass die folgende Regel nur für den Crawler mit dem User-Agent-Namen “GoodBot” gilt.
Disallow:

Erlaubt dem Crawler “GoodBot” den vollständigen Zugriff auf die Website (keine Einschränkungen).

Verfügt deine Homepage über robots.txt?

robots.txt - bei deiner Website vorhanden? — Verfügt deine Homepage über robots.txt?

Mit SEO-Analyse-Addons kannst du auch die Technik der Homepage prüfen. In dem Bildbeispiel rechts kannst du sehen, die robots.txt ist vorhanden, eine XML-Sitemap auch, diese wird aber in den robots.txt nicht erwähnt (wie in Beispiel 1 oben) – leider ist das Tool Woorank als Addon nicht mehr kostenfrei nutzbar 🙁

Meta-Tag “robots” – follow, no-follow

Wikipedia zum Beispiel verlinkt intern (innerhalb von Wikipedia.de) mit Follow-Links (der Crawler klettert an der Linkstruktur lang & sammelt die Inhalte) und nach extern mit No-Follow Links, d.h. fordert die Crawler auf, die Adresse nicht weiterzuverfolgen.

index erlaubt das Indexieren von Websites, Standard, wenn nichts angegeben wird.
follow bewirkt, dass der Crawler alle Links auf der Seite verfolgt und zur Indexierung untersucht, Standard, wenn nichts angegeben wird.
noindex sorgt dafür, dass eine URL nicht indexiert wird oder aus dem Index entfernt wird, sollte sie bereits aufgenommen sein.
nofollow verhindert, dass ein Crawler die Links der URL weiterverfolgt. Das bedeutet aber nicht, dass die Ziel-URLs von anderen URLs aus nicht verfolgt und ggf. indexiert werden können.

Lies hier mehr darüber, ob Backlinks mit dem noFollow Attribut sind machen →

Meta-Tag Index – No-index

Noindex

Archive – Cache

→ die Webseite nicht in den lokalen Zwischenspeicher (Cache) der Suchmaschinen aufgenommen.

Suchmaschinen-Cache verhindern mit robots.txt — Der Google Cache

Google stellte als erster Anbieter Kopien von Webseiten zur Verfügung, die in der Trefferliste unter dem Link Im Cache betrachtet werden können, auch wenn die ursprüngliche Seite auf dem Webserver sich bereits verändert hat oder nicht mehr existiert.

Meta-Tag Robots bestimmen mit Rank Math

Neben der Möglichkeit, die Serp-Snippets anzupassen, kannst du z.B. auch die Meta-Robots einstellen.

Index > ja, bitte indiziere diese Seite
Nofollow > Sollten Verlinkungen nach draußen existieren, bitte nicht folgen
No Image Index > die Bilder/Grafiken dieser Seite bitte nicht indizieren
No Index > Die ganze Seite nicht indizieren, nicht in den Suchergebnissen zeigen
No Archive > bitte keinen Snippet mit Cache-Möglichekeit bereitstellen
No Snippet > Indizieren ja, anzeigen in den SERP – nein

4 Gedanken zu „robots.txt oder Meta-Tag Robot – wann verwendest du was?“

Pingback: Screaming Frog - SEO-Audit - ausführlich, kostenfrei
Pingback: Optimale Backlink-Strategie: Follow & NoFollow im Einklang
Pingback: robots.txt-Datei erstellen und einfügen
Pingback: Ist deine Website indexierbar?

robots.txt oder Meta-Tag Robot – wann verwendest du was?