Alles, was Sie darüber wissen müssen.
Die robots.txt ist eine Datei, die im SEO-Bereich wortwörtlich über alles entscheidet: über die Indexierung. Im Folgenden haben wir daher das Wichtigste für Sie zusammengefasst. Die vorliegenden Daten sind im Hinblick auf Crawler von Google geschrieben, die Funktionen werden zumeist aber genauso von Bing und anderen größeren Suchmaschinen unterstützt.
Die robots.txt ist eine einfache Textdatei, die einfach per normalem Texteditor erstellt werden kann. Die fertige Datei muss in das root-Verzeichnis der Domain abgelegt werden, da Suchmaschinen diese Datei unter dem Pfad ihre-domain.de/robots.txt erwarten.
Über die robots.txt wird üblicherweise der Pfad zur XML-Sitemap angegeben. Zudem kann definiert werden, welche Pfade und Verzeichnisse Crawler nicht besuchen dürfen. Zudem können mit dem Raute-Symbol (#) Kommentare eingefügt werden. Ein einfaches Beispiel:
#Kommentar (eigene Zeile), wenn man ihn möchte, mit Raute angeführt
User-agent: *
Disallow: /login
Disallow: /*pdf$
Sitemap: http ://www. mindshape.de/sitemap.xml
In diesem Beispiel wird in der ersten Zeile ein Kommentar eingefügt. Es folgt die Anweisung,dass URLs mit dem Pfad-Segment "/login" nicht verfolgt werden sollen. Zudem sollen sämtliche URLs, die mit .pdf enden (das $-Zeichen signalisiert hier, dass nach der Zeichenfolge keine weiteren Zeichen folgen dürfen), nicht verfolgt werden. Zuletzt folgt der Pfad zur Sitemap.
Eingabe | Erklärung | Beispiel |
---|---|---|
# | Kommentarzeile | # robots.txt für mindshape.de |
* | Wildcard. Nutzbar für User-agents und URL-Pfade. | Disallow: /*? |
$ | Kennzeichnet Pfadende. | Disallow: /*.pdf$ |
User-agent: | Angesprochene(r) Crawler (mehrere gleichzeitig untereinander aufgeführt klappen) | User-agent: Googlebot |
Allow: | Erlaube Besuch (Voreinstellung) | Allow: /nur-diese-datei.html |
Disallow: | Verbiete Besuch | Disallow: /nicht-das-hier.html |
Sitemap: | Angabe der Sitemap(s) | Sitemap: http://www.mindshape.de/ index.php?id=132 |
Crawl-delay: | Verzögerung in Minuten zwischen 2 Abrufen. Wird von Google nicht befolgt. Tipp: Weglassen. | Crawl-Delay: 120 |
Noindex: | Enfernung angegebener Dateien aus dem Index (offiziell nicht unterstützt) | noindex:/testseite.html |
Besuch von Suchmaschinen komplett sperren:
Besuch nur speziellem Crawler erlauben:
Spezielle Datei sperren:
Verzeichnis sperren:
Alle URLs mit Parametern sperren:
Bestimmte Dateien (z.B. PDFs) sollen nicht indexiert werden:
Innerhalb der robots.txt finden sich häufig Fehler, die zum einen großen Einfluss auf die Indexierung haben, zum anderen aber auch schnell ausgebügelt werden können.