Magazinbereich von mindshape

Magazin robots.txt: Kompakte Übersicht für SEO

Die robots.txt ist eine Datei, die im SEO-Bereich wortwörtlich über alles entscheidet: über die Indexierung. Im Folgenden haben wir daher das Wichtigste für Sie zusammengefasst. Die vorliegenden Daten sind im Hinblick auf Crawler von Google geschrieben, die Funktionen werden zumeist aber genauso von Bing und anderen größeren Suchmaschinen unterstützt.

Martina Kölsch von mindshape
Autorin
Martina Kölsch
Online Marketing

Grundlagen zur robots.txt Datei

Die robots.txt ist eine einfache Textdatei, die einfach per normalem Texteditor erstellt werden kann. Die fertige Datei muss in das root-Verzeichnis der Domain abgelegt werden, da Suchmaschinen diese Datei unter dem Pfad ihre-domain.de/robots.txt erwarten.

Aufbau der robots.txt

Über die robots.txt wird üblicherweise der Pfad zur XML-Sitemap angegeben. Zudem kann definiert werden, welche Pfade und Verzeichnisse Crawler nicht besuchen dürfen. Zudem können mit dem Raute-Symbol (#) Kommentare eingefügt werden. Ein einfaches Beispiel:

#Kommentar (eigene Zeile), wenn man ihn möchte, mit Raute angeführt
User-agent: *
Disallow: /login
Disallow: /*pdf$
Sitemap: http ://www. mindshape.de/sitemap.xml

In diesem Beispiel wird in der ersten Zeile ein Kommentar eingefügt. Es folgt die Anweisung,dass URLs mit dem Pfad-Segment "/login" nicht verfolgt werden sollen. Zudem sollen sämtliche URLs, die mit .pdf enden (das $-Zeichen signalisiert hier, dass nach der Zeichenfolge keine weiteren Zeichen folgen dürfen), nicht verfolgt werden. Zuletzt folgt der Pfad zur Sitemap.

Mögliche Eingaben in der robots.txt

EingabeErklärungBeispiel
#Kommentarzeile# robots.txt für mindshape.de
*Wildcard. Nutzbar für User-agents und URL-Pfade.Disallow: /*?
$Kennzeichnet Pfadende.Disallow: /*.pdf$
User-agent:Angesprochene(r) Crawler (mehrere gleichzeitig untereinander aufgeführt klappen)User-agent: Googlebot
Allow:Erlaube Besuch (Voreinstellung)Allow: /nur-diese-datei.html
Disallow:Verbiete BesuchDisallow: /nicht-das-hier.html
Sitemap:Angabe der Sitemap(s)Sitemap: http: //www.mindshape.de/index.php?id=132
Crawl-delay:Verzögerung in Minuten zwischen 2 Abrufen. Wird von Google nicht befolgt. Tipp: Weglassen.Crawl-Delay: 120
Noindex:Enfernung angegebener Dateien aus dem Index (offiziell nicht unterstützt)noindex:/testseite.html

Praktische Beispiele für die robots.txt

Besuch von Suchmaschinen komplett sperren:

  • User-agent:*
  • Disallow: /

Besuch nur speziellem Crawler erlauben:

  • User-agent: Googlebot 
  • Disallow: (Hinweis: alternativ auch „Allow: /“ möglich) 
  • User-agent: * (für alle außer dem eben angesprochenen Googlebot) 
  • Disallow: /

Spezielle Datei sperren:

  • User-agent: * 
  • Disallow: /kram/noch-mehr-kram/sinnlos.html

Verzeichnis sperren:

  • User-agent: 
  • Disallow: /tests/

Alle URLs mit Parametern sperren:

  • User-agent: * 
  • Disallow: /*?

Bestimmte Dateien (z.B. PDFs) sollen nicht indexiert werden:

  • User-agent:* 
  • Disallow: /*.pdf$

Häufige Fehler in der robots.txt

Innerhalb der robots.txt finden sich häufig Fehler, die zum einen großen Einfluss auf die Indexierung haben, zum anderen aber auch schnell ausgebügelt werden können.

  1. Statt Verzeichnissen Pfad-Bestandteile sperren („/“ vergessen)
    Soll ein Verzeichnis gesperrt werden, muss an den Slash am Ende des Verzeichnisnamens gedacht werden. „Disallow: /temp“ sperrt nicht nur /temp/, sondern auch /temperatur-messer.html
  2. Auch URLs, die indexiert werden sollen, werden (unwissentlich) ausgeschlossen
    Bei Angaben wie „Disallow: /*sid“ sollte überprüft werden, ob wirklich nur die gemeinten URLs ausgeschlossen werden. Im Beispiel wird neben der gemeinten Session-ID auch die Seite /cds-von-sido.html vom Indexieren ausgeschlossen. Schade um die Landingpage ;)
  3. Robots.txt statt robots.txt
    Der Crawler sucht case-sensitive, daher ist die robots.txt eine andere Datei als die Robots.txt.
  4. Groß- und Kleinschreibung der Dateinamen und Verzeichnisse
    Wie zuvor erwähnt, ist .PDF für den Crawler etwas anderes als .pdf. Um solche Fehler im Vorhinein zu vermeiden, sollte man generell alle URLs und deren Bestandteile klein schreiben.
  5. „Disallow: /“
    Verhinderung der Indexierung.
  6. „Disallow: /temp/ /admin/“
    Auch solche Fälle kommen vor. Hier sollten 2 Verzeichnisse gesperrt werden. Der Crawler aber liest alles hinter einem Disallow als einen einzelnen Pfad, nicht zwei verschiedene.
  7. Geheime Verzeichnisse und Dateien angeben
    „Disallow: /redesign/“ teilt dem Wettbewerb zuverlässig mit, wo sie zuerst schauen möchten. Entsprechende Bereiche sollten über das Robots Meta-Tag mit der Anweisung „noindex, nofollow“ ausgeschlossen werden, und nicht über die robots.txt.Dazu einfach folgenden Code im Head-Bereich der Seite einfügen: < meta name="robots" content="noindex,nofollow" />
  8. robots.txt von anderer Domain ohne Anpassung kopieren
    In der Folge stimmt meistens die Angabe der Sitemap nicht. Sind Ausschlüsse im Spiel, können die Verzeichnisse und Dateien nennen, die die eigene Seite gar nicht hat.
  9. Ausgeschlossene Seiten haben Backlinks
    Kein Fehler, sondern eher ein Hinweis: Wenn ausgeschlossene Seiten Backlinks haben, nutzt Google die daher erhaltenen Daten, zum Beispiel den Ankertext, für ein Snippet. Die Seite ist also trotzdem – gegebenenfalls mit weniger Daten – im Index.
  10. Ausschluss von Bildern
    Auch über die Bildersuche kann eine Menge qualifizierter Traffic kommen. Zudem ist die Vorschau entsprechend beeinträchtigt, wenn Google die Bilder nicht indexieren darf. Es kann auch vorkommen, dass Bilder von einer Subdomain geladen werden, die komplett von der Indexierung ausgeschlossen ist.
  11. Ausschluss über die robots.txt als Allheilmittel
    Eine Sperrung über die robots.txt sollte immer als das letzte Mittel angesehen werden, denn wie die Punkte hier auf der Liste zeigen, kann es viele Probleme geben. Viel zuverlässiger hält das Robots-Meta-Tag mit der Einstellung „noindex“ von der Indexierung ab. Noch dazu werden gleichzeitig alle Links der Seite weiter verfolgt, wenn man denn will. Auch das Meta-Tag „Canonical“ kann dazu dienen, bei doppelten Inhalten auf den zu indexierenden Inhalt zu weisen.
  12. Anweisungen betreffen Subdomains
    Jede Subdomain benötigt eine eigene robots.txt, Anweisungen von der robots.txt einer anderen (Sub-) Domain gelten nicht.
  13. Robots.txt ist nicht im obersten Verzeichnis (root) gespeichert 
    Dann findet der Crawler die Datei auch nicht und geht von „Allow: /“ aus.
  14. Anweisung an verschiedene User-agents sind nicht getrennt
    Um die unterschiedlichen Anweisungen an verschiedene User-Agents zu trennen, muss eine Leerzeile vorhanden sein.
  15. User-Agent:* Allow: /
    Diese Anweisung wird sowieso von den Crawlern angenommen, wenn keine gegenteilige Anweisung gefunden wird. An sich kein Fehler, aber überflüssig.

Quellen und weiterer Lesestoff

Für ganzheitlichen Erfolg im Online Marketing

zielscheibe

SEO Consulting

Wir helfen Ihnen dabei, Sichtbarkeit in Suchmaschinen zu erlangen und mehr qualifizierte Besucher:innen auf Ihre Website zu führen. Dafür legen wir uns ins Zeug – mit Leidenschaft, geballtem Know-how und über 19 Jahren Markterfahrung als SEO-Agentur. Bereits seit 2002 unterstützen wir Kund:innen im Bereich Suchmaschinen-Optimierung.

Mehr zum SEO Consulting
datenblaetter

Content-Kreation

Ihr digitaler Erfolg entsteht durch kreative Inhalte, die Ihre Website-Besucher:innen informieren und begeistern. Als erfahrene Agentur für Content-Kreation entwickeln wir eine Strategie für Ihr Content Marketing, die auf Ihr Unternehmen und Ihre Zielgruppen zugeschnitten ist. Im Zentrum stehen die richtigen Inhalte an der richtigen Stelle Ihrer Website.

Mehr zur Content-Kreation
computer

Webauftritt optimieren

Als zentraler, virtueller Berater entwickeln wir gemeinsam mit Ihnen Ihre performante, individuelle und professionelle Website. Unsere Website Services reichen dabei von der strategischen Konzeption über ein ästhetisches, funktionales UX/UI-Design und die individuelle Entwicklung bis hin zur laufenden technischen Website-Betreuung.

Mehr zu Website Services

Wir unterstützen Sie bei der Suchmaschinen-Optimierung Ihrer Website!

Finden Sie mit unseren Expert:innen die passende Strategie für Ihren Website-Erfolg. 
Lassen Sie sich jetzt beraten und rufen Sie uns an!

Weitere spannende Beiträge zum Thema SEO