Aktualisiert am 5. Juni 2024
Bots, Crawler, Spider, Freshbots, Deepbots – die Google Bots hangeln sich durch Inhalte und an Links entlang. Er folgt den internen und externen Verlinkungen, sammelt und strukturiert Inhalte. Dieses Programm wird auch Robot (Roboter, weitgehend autonom arbeitende Maschine) genannt, weil es selbständig nach Inhalten sucht, erfasst, bewertet und katalogisiert.
Die robots.txt-Datei ist die Datei, in der man auflistet, welche Verzeichnisse, Dateien etc. von Suchmaschinen wie Google oder Bing gelesen werden dürfen. Wenn eine robots.txt vorhanden ist, gehört diese zu den ersten Anlaufstellen der Bots (oder Spider etc.). Zusätzlich können auch noFollow-Hinweise in der HTML-Struktur einer Seite verwendet werden, um den Crawlern mitzuteilen, welche Links sie ignorieren sollen, selbst wenn sie durch die robots.txt-Datei Zugang haben.
robots.txt oder Meta-Tag Robot?
Wenn du Inhalte von einer Indexierung ausschließen willst, eignet sich eine robots.txt-Datei nicht, durch die interne Linkstruktur kann diese Seite trotzdem indexiert werden.
Mit der robots.txt-Datei kannst du Suchmaschinen-Crawlern mitteilen, auf welche URLs deiner Website sie zugreifen können. Dies dient hauptsächlich dazu, eine Überlastung deiner Website mit Anfragen zu vermeiden. Sinn und Zweck von robots.txt-Dateien ist es nicht, Webseiten aus der Google Suche auszuschließen. Dafür solltest du das Indexieren mit noindex blockieren oder deine Seite mit einem Passwort schützen.
Google Support: Einführung zu robots.txt-Dateien
Mit einer robots.txt kannst verhindern, dass Bild-, Video- und Audiodateien in den Suchergebnissen angezeigt werden. Wie eine Indexierung verhindert wirst, kannst du weiter unter im Artikel lesen.
robots.txt abspeichern, aber wo?
Die robots.txt sollte sich im Root-Verzeichnis, also im Hauptverzeichnis der Homepage befinden, also da, wo auch die index.php oder index.html sich befindet. Nur dort wird sie von Google & Co. auch gefunden.
Es kann pro Domain nur eine robots.txt geben.
Bespiel 1 einer robots.txt-Datei
Etwas verbieten & Sitemap
User-agent: Googlebot Disallow: /images/ Sitemap: https://digitalfahrschule.de/sitemap.xml
Das heißt der User-Agent mit dem Namen „Googlebot“ soll den Ordner digitalfahrschule.de/images/ inklusive Unterverzeichnisse nicht crawlen. Gleichzeitig gibt es einen Hinweis auf die XML-Sitemap.
Alles erlauben
User-agent: * Allow: /
Hier wird nichts verboten, sondern alles erlaubt. Manche Provider stellen dir eine robots.txt zur Verfügung, die dann so aussieht – inhaltlich überflüssig, denn die Bots crawlen alles, wenn es ihnen nicht explizit verboten wird.
Mehrere Sitemaps
User-agent: * Allow: / Sitemap: https://domain.de/sitemap_index.xml Sitemap: https://domain.de/post-sitemap.xml Sitemap: https://domain.de/page-sitemap.xml Sitemap: https://domain.de/tribe_events-sitemap.xml
Wenn du mehrere Sitemaps hast, was der Fall ist, wenn du z.B. Seiten, Beiträge und Veranstaltungen hast.
Beispiel-robots.txt öffnen (öffnet sich in neuem Tab)
Beispiel 2
User-agent: * Disallow: /private/ Disallow: /temp/ Disallow: /old-pages/ Disallow: /no-index.html # Block a specific crawler User-agent: BadBot Disallow: / # Allow all content for a specific crawler User-agent: GoodBot Disallow:
Dies bedeutet, dass die folgenden Regeln für alle Crawler gelten.
Disallow: /private/
Verhindert, dass Crawler auf alle Seiten und Dateien im Verzeichnis /private/ zugreifen.
Disallow: /temp/
Verhindert, dass Crawler auf alle Seiten und Dateien im Verzeichnis /temp/ zugreifen.
Disallow: /old-pages/
Verhindert, dass Crawler auf alle Seiten und Dateien im Verzeichnis /old-pages/ zugreifen.
Disallow: /no-index.html
Verhindert, dass Crawler auf die spezifische Datei /no-index.html zugreifen.
User-agent: BadBot
Gibt an, dass die folgende Regel nur für den Crawler mit dem User-Agent-Namen “BadBot” gilt.
Disallow: /
Verhindert, dass der Crawler “BadBot” auf irgendeinen Teil der Website zugreift.
User-agent: GoodBot
Gibt an, dass die folgende Regel nur für den Crawler mit dem User-Agent-Namen “GoodBot” gilt.
Disallow:
Erlaubt dem Crawler “GoodBot” den vollständigen Zugriff auf die Website (keine Einschränkungen).
Verfügt deine Homepage über robots.txt?
Mit SEO-Analyse-Addons kannst du auch die Technik der Homepage prüfen. In dem Bildbeispiel rechts kannst du sehen, die robots.txt ist vorhanden, eine XML-Sitemap auch, diese wird aber in den robots.txt nicht erwähnt (wie in Beispiel 1 oben) – leider ist das Tool Woorank als Addon nicht mehr kostenfrei nutzbar 🙁
Meta-Tag “robots” – follow, no-follow
<meta name=”robots” content=”index, follow”>
<meta name=”robots” content=no-follow”>
Wikipedia zum Beispiel verlinkt intern (innerhalb von Wikipedia.de) mit Follow-Links (der Crawler klettert an der Linkstruktur lang & sammelt die Inhalte) und nach extern mit No-Follow Links, d.h. fordert die Crawler auf, die Adresse nicht weiterzuverfolgen.
- index erlaubt das Indexieren von Websites, Standard, wenn nichts angegeben wird.
- follow bewirkt, dass der Crawler alle Links auf der Seite verfolgt und zur Indexierung untersucht, Standard, wenn nichts angegeben wird.
- noindex sorgt dafür, dass eine URL nicht indexiert wird oder aus dem Index entfernt wird, sollte sie bereits aufgenommen sein.
- nofollow verhindert, dass ein Crawler die Links der URL weiterverfolgt. Das bedeutet aber nicht, dass die Ziel-URLs von anderen URLs aus nicht verfolgt und ggf. indexiert werden können.
Lies hier mehr darüber, ob Backlinks mit dem noFollow Attribut sind machen →
Meta-Tag Index – No-index
Noindex
<meta name=”robots” content=”noindex”> → wenn ich z.B. mein Impressum aus den SERP (-Sitelinks) heraushalten will
Archive – Cache
<meta name=”robots” content=”noarchiv” />
→ die Webseite nicht in den lokalen Zwischenspeicher (Cache) der Suchmaschinen aufgenommen.
Google stellte als erster Anbieter Kopien von Webseiten zur Verfügung, die in der Trefferliste unter dem Link Im Cache betrachtet werden können, auch wenn die ursprüngliche Seite auf dem Webserver sich bereits verändert hat oder nicht mehr existiert.
Meta-Tag Robots bestimmen mit Rank Math
Neben der Möglichkeit, die Serp-Snippets anzupassen, kannst du z.B. auch die Meta-Robots einstellen.
- Index > ja, bitte indiziere diese Seite
- Nofollow > Sollten Verlinkungen nach draußen existieren, bitte nicht folgen
- No Image Index > die Bilder/Grafiken dieser Seite bitte nicht indizieren
- No Index > Die ganze Seite nicht indizieren, nicht in den Suchergebnissen zeigen
- No Archive > bitte keinen Snippet mit Cache-Möglichekeit bereitstellen
- No Snippet > Indizieren ja, anzeigen in den SERP – nein
4 Gedanken zu „robots.txt oder Meta-Tag Robot – wann verwendest du was?“