robots.txt – Was ist das?

Aktualisiert am 3. Juni 2022

Bots, Crawler, Spider, Freshbots, Deepbots – die Google Bots hangeln sich durch Inhalte und an Links entlang. Er folgt den internen und externen Verlinkungen, sammelt und strukturiert Inhalte. Dieses Programm wird auch Robot (Roboter, weitgehend autonom arbeitende Maschine) genannt, weil es selbständig nach Inhalten sucht, erfasst, bewertet und katalogisiert.

Die robots.txt-Datei ist die Datei, in der man auflistet, welche Verzeichnisse, Dateien etc. von Suchmaschinen wie Google oder Bing gelesen werden dürfen. Wenn eine robots.txt vorhanden ist, gehört diese zu den ersten Anlaufstellen der Bots (oder Spider etc.).

robots.txt oder Meta-Tag Robot – wann verwendest du was?

Wenn du Inhalte von einer Indexierung ausschließen willst, eignet sich eine  robots.txt-Datei nicht, durch die interne Linkstruktur kann diese Seite trotzdem indexiert werden.

Mit der robots.txt-Datei kannst du Suchmaschinen-Crawlern mitteilen, auf welche URLs deiner Website sie zugreifen können. Dies dient hauptsächlich dazu, eine Überlastung deiner Website mit Anfragen zu vermeiden. Sinn und Zweck von robots.txt-Dateien ist es nicht, Webseiten aus der Google Suche auszuschließen. Dafür solltest du das Indexieren mit noindex blockieren oder deine Seite mit einem Passwort schützen.
Google Support: Einführung zu robots.txt-Dateien

Mit einer robots.txt kannst verhindern, dass Bild-, Video- und Audiodateien in den Suchergebnissen angezeigt werden. Wie eine Indexierung verhindert wirst, kannst du weiter unter im Artikel lesen.

robots.txt abspeichern, aber wo?

Die robots.txt sollte sich im Root-Verzeichnis, also im Hauptverzeichnis der Homepage befinden, also da, wo auch die index.php oder index.html sich befindet. Nur dort wird sie von Google & Co. auch gefunden.

Es kann pro Domain nur eine robots.txt geben.

Bespiele einer robots.txt-Datei

Etwas verbieten & Sitemap

User-agent: Googlebot
Disallow: /images/

Sitemap: https://digitalfahrschule.de/sitemap.xml

Das heißt der User-Agent mit dem Namen „Googlebot“ soll den Ordner digitalfahrschule.de/images/ inklusive Unterverzeichnisse nicht crawlen. Gleichzeitig gibt es einen Hinweis auf die XML-Sitemap.

Alles erlauben

User-agent: *
Allow: /

Hier wird nichts verboten, sondern alles erlaubt. Manche Provider stellen dir eine robots.txt zur Verfügung, die dann so aussieht – inhaltlich überflüssig, denn die Bots crawlen alles, wenn es ihnen nicht explizit verboten wird.

Beispiel-robots.txt öffnen (öffnet sich in neuem Tab)

Verfügt deine Homepage über robots.txt?

robots.txt - bei deiner Website vorhanden?
Verfügt deine Homepage über robots.txt?

Mit dem SEO-Analyse-Addon von WooRank kannst du auch die Technik der Homepage prüfen. In dem Bildbeispiel rechts kannst du sehen, die robots.txt ist vorhanden, eine XML-Sitemap auch, diese wird aber in den robots.txt nicht erwähnt (wie in Beispiel 1 oben)

https://addons.mozilla.org/de/firefox/addon/seo-website-analysis/?src=search , den Link ggf. kopieren und im Firefox öffnen.

Meta-Tag “robots” – follow, no-follow

<meta name=”robots” content=”index, follow”>
<meta name=”robots” content=no-follow”>

Wikipedia zum Beispiel verlinkt intern (innerhalb von Wikipedia.de) mit Follow-Links (der Crawler klettert an der Linkstruktur lang & sammelt die Inhalte) und nach extern mit No-Follow Links, d.h. fordert die Crawler auf, die Adresse nicht weiterzuverfolgen.

  • index erlaubt das Indexieren von Websites, Standard, wenn nichts angegeben wird.
  • follow bewirkt, dass der Crawler alle Links auf der Seite verfolgt und zur Indexierung untersucht, Standard, wenn nichts angegeben wird.
  • noindex sorgt dafür, dass eine URL nicht indexiert wird oder aus dem Index entfernt wird, sollte sie bereits aufgenommen sein.
  • nofollow verhindert, dass ein Crawler die Links der URL weiterverfolgt. Das bedeutet aber nicht, dass die Ziel-URLs von anderen URLs aus nicht verfolgt und ggf. indexiert werden können.

Meta-Tag Index – No-index

Noindex

<meta name=”robots” content=”noindex”> → wenn ich z.B. mein Impressum aus den SERP (-Sitelinks) heraushalten will

Archive – Cache

<meta name=”robots” content=”noarchiv” />

→ die Webseite nicht in den lokalen Zwischenspeicher (Cache) der Suchmaschinen aufgenommen.

Suchmaschinen-Cache verhindern mit robots.txt
Der Google Cache

Google stellte als erster Anbieter Kopien von Webseiten zur Verfügung, die in der Trefferliste unter dem Link Im Cache betrachtet werden können, auch wenn die ursprüngliche Seite auf dem Webserver sich bereits verändert hat oder nicht mehr existiert.

Meta-Tag Robots bestimmen mit Rank Math

Meta-Tag-Robots einstellen mit Rank-Math

Neben der Möglichkeit, die Serp-Snippets anzupassen, kannst du z.B. auch die Meta-Robots einstellen.

  1. Index > ja, bitte indiziere diese Seite
  2. Nofollow > Sollten Verlinkungen nach draußen existieren, bitte nicht folgen
  3. No Image Index > die Bilder/Grafiken dieser Seite bitte nicht indizieren
  4. No Index > Die ganze Seite nicht indizieren, nicht in den Suchergebnissen zeigen
  5. No Archive > bitte keinen Snippet mit Cache-Möglichekeit bereitstellen
  6. No Snippet > Indizieren ja, anzeigen in den SERP – nein

 

Schreibe einen Kommentar