Blog

SEO Kompakt - robot.txt

Alles was Sie darüber wissen müssen.

Die robots.txt ist eine Datei, die im SEO-Bereich wortwörtlich über alles entscheidet: über die Indexierung. Im Folgenden haben wir daher das Wichtigste zusammengefasst. Die vorliegenden Daten sind im Hinblick auf Crawler von Google geschrieben, die Funktionen werden zumeist aber genauso von Bing und anderen größeren Suchmaschinen unterstützt.

Grundlage zur robots.txt Datei

Aufbau der robots.txt

#Kommentar (eigene Zeile), wenn man ihn möchte mit Raute angeführt
User-agent: *
Disallow: /login
Disallow: /*pdf$
Sitemap: http ://www.mindshape.de/sitemap.xml

Mögliche Eingaben in der robots.txt

Eingabe Erklärung Beispiel
# Kommentarzeile # robots.txt für mindshape.de
* Wildcard. Nutzbar für User-agents und URL-Pfade. Disallow: /*?
$ Kennzeichnet Pfadende. Disallow: /*.pdf$
User-agent: Angesprochene(r) Crawler (mehrere gleichzeitig untereinander aufgeführt klappen) User-agent: Googlebot
Allow: Erlaube Besuch (Voreinstellung) Allow: /nur-diese-datei.html
Disallow: Verbiete Besuch Disallow: /nicht-das-hier.html
Sitemap: Angabe der Sitemap(s) Sitemap: http://www.mindshape.de/ index.php?id=132
Crawl-delay: Verzögerung in Minuten zwischen 2 Abrufen. Wird von Google nicht befolgt. Tipp: Weglassen. Crawl-Delay: 120

Praktische Beispiel für die robots.txt

Besuch von Suchmaschinen komplett sperren:

  • User-agent:*
  • Disallow: /

Besuch nur speziellem Crawler erlauben:

  • User-agent: Googlebot 
  • Disallow: (Hinweis: alternativ auch „Allow: /“ möglich) 
  • User-agent: * (für alle außer dem eben angesprochenen Googlebot) 
  • Disallow: /

Spezielle Datei sperren:

  • User-agent: * 
  • Disallow: /kram/noch-mehr-kram/sinnlos.html

Verzeichnis sperren:

  • User-agent: 
  • Disallow: /tests/

Alle URLs mit Parametern sperren:

  • User-agent: * 
  • Disallow: /*?

Bestimmte Dateien (z.B. PDFs) sollen nicht indexiert werden:

  • User-agent:* 
  • Disallow: /*.pdf$

Häufige Fehler in der robots.txt

Innerhalb der robots.txt finden sich häufig Fehler, die zum einen großen Einfluss auf die Indexierung haben, zum anderen aber auch schnell ausgebügelt werden können.

  1. Statt Verzeichnissen Pfad-Bestandteile sperren („/“ vergessen)
    Soll ein Verzeichnis gesperrt werden, muss an den Slash am Ende des Verzeichnisnamens gedacht werden. „Disallow: /temp“ sperrt nicht nur /temp/, sondern auch /temperatur-messer.html
  2. Auch URLs, die indexiert werden sollen, werden (unwissentlich) ausgeschlossen
    Bei Angaben wie „Disallow: /*sid“ sollte überprüft werden, ob wirklich nur die gemeinten URLs ausgeschlossen werden. Im Beispiel wird neben der gemeinten Session-ID auch die Seite /cds-von-sido.html vom Indexieren ausgeschlossen. Schade um die Landingpage ;)
  3. Robots.txt statt robots.txt
    Der Crawler sucht case-sensitive, daher ist die robots.txt eine andere Datei als die Robots.txt.
  4. Groß- und Kleinschreibung der Dateinamen und Verzeichnisse
    Wie zuvor erwähnt, ist .PDF für den Crawler etwas anderes als .pdf. Um solche Fehler im Vorhinein zu vermeiden, sollte man generell alle URLs und deren Bestandteile klein schreiben.
  5. „Disallow: /“
    Verhinderung der Indexierung.
  6. „Disallow: /temp/ /admin/“
    Auch solche Fälle kommen vor. Hier sollten 2 Verzeichnisse gesperrt werden. Der Crawler aber liest alles hinter einem Disallow als einen einzelnen Pfad, nicht zwei verschiedene.
  7. Geheime Verzeichnisse und Dateien angeben
    „Disallow: /redesign/“ teilt dem Wettbewerb zuverlässig mit, wo sie zuerst schauen möchten. Entsprechende Bereiche sollten über das Robots Meta-Tag mit der Anweisung „noindex, nofollow“ ausgeschlossen werden, und nicht über die robots.txt.Dazu einfach folgenden Code im Head-Bereich der Seite einfügen: < meta name="robots" content="noindex,nofollow" />
  8. robots.txt von anderer Domain ohne Anpassung kopieren
    In der Folge stimmt meistens die Angabe der Sitemap nicht. Sind Ausschlüsse im Spiel, können die Verzeichnisse und Dateien nennen, die die eigene Seite gar nicht hat.
  9. Ausgeschlossene Seiten haben Backlinks
    Kein Fehler, sondern eher ein Hinweis: Wenn ausgeschlossene Seiten Backlinks haben, nutzt Google die daher erhaltenen Daten, zum Beispiel den Ankertext, für ein Snippet. Die Seite ist also trotzdem – gegebenenfalls mit weniger Daten – im Index.
  10. Ausschluss von Bildern
    Auch über die Bildersuche kann eine Menge qualifizierter Traffic kommen. Zudem ist die Vorschau entsprechend beeinträchtigt, wenn Google die Bilder nicht indexieren darf. Es kann auch vorkommen, dass Bilder von einer Subdomain geladen werden, die komplett von der Indexierung ausgeschlossen ist.
  11. Ausschluss über die robots.txt als Allheilmittel
    Eine Sperrung über die robots.txt sollte immer als das letzte Mittel angesehen werden, denn wie die Punkte hier auf der Liste zeigen, kann es viele Probleme geben. Viel zuverlässiger hält das Robots-Meta-Tag mit der Einstellung „noindex“ von der Indexierung ab. Noch dazu werden gleichzeitig alle Links der Seite weiter verfolgt, wenn man denn will. Auch das Meta-Tag „Canonical“ kann dazu dienen, bei doppelten Inhalten auf den zu indexierenden Inhalt zu weisen.
  12. Anweisungen betreffen Subdomains
    Jede Subdomain benötigt eine eigene robots.txt, Anweisungen von der robots.txt einer anderen (Sub-) Domain gelten nicht.
  13. Robots.txt ist nicht im obersten Verzeichnis (root) gespeichert 
    Dann findet der Crawler die Datei auch nicht und geht von „Allow: /“ aus.
  14. Anweisung an verschiedene User-agents sind nicht getrennt
    Um die unterschiedlichen Anweisungen an verschiedene User-Agents zu trennen, muss eine Leerzeile vorhanden sein.
  15. User-Agent:* Allow: /
    Diese Anweisung wird sowieso von den Crawlern angenommen, wenn keine gegenteilige Anweisung gefunden wird. An sich kein Fehler, aber überflüssig.

Quellen und weiterer Lesestoff

Nehmen Sie mit uns Kontakt auf. Wir beraten Sie gerne.