Robots.txt
Mit einer robots.txt (Robots Exclusion Protocol) können Sie festlegen welche Dokumente nicht von einem Suchmaschinen-Robot besucht werden sollen. Dies ist zum Beispiel sinnvoll für Programmdateien, Bilder, Logfiles, private oder andere Dateien, die Sie vor der Indexierung durch Suchmaschinen schützen wollen.
Die Suchmaschinen Robots sind allerdings nicht verpflichtet sich an die in der robots.txt getroffenen Anweisungen zu halten.Wo gehört die robots.txt hin?
Der richtige Platz für die robots.txt Datei ist das Root Verzeichnis des Webservers. Ruft ein Suchmaschinen Robot eine Seite Ihrer Website auf, überprüft er zunächst, ob im Rootverzeichnis eine robots.txt Datei liegt und, ob diese ihm auch gestattet auf die entsprechende Seite zuzugreifen.
Die robots.txt muss im Rootverzeichnis des Webservers liegen. Bsp: www.gn-webdesign.de/robots.txt
Welche Angaben enthält eine robots.txt, wie ist sie aufgebaut?
Die robots.txt ist nach einem einfach Schema aufgebaut: Zunächst wird angegeben für welchen Suchmaschinen Robot (auch Crawler genannt) die jeweiligen Anweisungen gelten sollen. Dann folgen die Anweisungen:
# robots.txt für http://www.ihre-domain.de/
User-agent: BeispielRobot # Bestimmt den Robot/Crawler
Disallow: /verzeichnis/ # Verzeichnis soll nicht gecrawlt werden
Disallow: /verzeichnis/dokument.html # Dokument soll nicht gecrawlt werden
Mit dieser robots.txt wäre der Ordner
www.ihre-domain.de/verzeichnis/
und das Dokument
www.ihre-domain.de/verzeichnis/dokument.html
vor den Webcrawlern geschützt (soweit diese sich an die Anweisungen der robots.txt halten). Ein vollständiger Schutz vor dem Crawling, geschweige denn ein Zugriffsschutz oder eine Zugriffsbeschränkung ist allein mit der robots.txt nicht möglich. Dazu müssen Sie sich anderer Schutzmechanismen (Bsp.: .htaccess) bedienen.
Kommentare in der robots.txt beginnen mit einem # und haben keine Auswirkungen auf die Robots.
Mit der Anweisung User-agent: legen Sie fest für welche Crawler/Suchmaschinen Robots die nachfolgenden Anweisungen gelten sollen. Hierzu müssen Sie den genauen Namen des Robots kennen und angeben. Wollen Sie nicht für jeden Robot eigene Anweisungen festlegen, verwenden Sie: User-agent: * Die getroffenen Anweisungen gelten dann für alle Crwaler/Robots:
# robots.txt Beispiel: Anweisungen für alle Crawler/Robots
User-agent: *
Disallow: /verzeichnis/
Beispiel Anweisungen nur für einen User-Agent:
# robots.txt Beispiel: Anweisungen nur für Googlebot
User-agent: Googlebot
Disallow: /verzeichnis/
Sie können auch mehreren User-Agents bestimmte Anweisungen zuweisen:
# robots.txt Beispiel: Anweisungen für mehrere User-agents
User-agent: Googlebot
User-agent: Slurp
User-agent: Msnbot
Disallow: /verzeichnis/
Wichtige User-agents sind:
Googlebot für Google
Googlebot-Image für dieGoogle-Bildersuche
Adsbot-Google für Google-Adwords
MediaPartners-Google für Google-Adsense
Slurp für Yahoo
Msnbot für MSN
Weitere User-agents finden Sie auf Agentarius.net
Mit der Anweisung Disallow: definieren Sie welche Verzeichnisse und Dokumente nicht besucht werden sollen. Pro Zeile wird eine Disallow Anweisung angegeben. Ist kein Wert angegeben darf der Robot auf alle Verzeichnisse und Dokumente zugreifen:
# robots.txt Beispiel: Alle Verzeichnisse und Dokumente sind freigegeben
User-agent: *
Disallow:
Wollen Sie Ihre komplette Website für die Robots sperren, verwenden Sie Disallow: /
# robots.txt Beispiel: Alle Verzeichniss und Dokumente sind gesperrt
User-agent: *
Disallow: /
Es muss pro User-agent mindestens eine Disallow Anweisung vorhanden sein. Groß und Kleinschreibung sind dabei unbeachtlich. Allerdings sollten Sie darauf achten wo und ob Sie den / (Slash) setzen:
# robots.txt Beispiel: Vorsicht beim Setzen des / (Slash)
User-agent: *
Disallow: /index
Disallow: /vereichnis/
Die erste Anweisung führt dazu, dass alle Seiten, die mit index beginnen von der Indexierung ausgeschlossen sind.
So zum Beispiel:
http://www.gn-webdesign.de/index.html
aber auch:
http://www.gn-webdesign.de/index-uebersicht/datei.html
Die zweite Anweisung hingegen sperrt nur die Dateien, die im Verzeichnis /verzeichnis/ liegen, also:
http://www.gn-webdesign.de/verzeichnis/
Kombinieren Sie oben aufgeführte Anweisungen, um so für Ihre Website das gewünschte Ergebnis zu erzielen.
Es empfielt sich zumindest eine minimale robots.txt einzusetzen, auch wenn Sie darin nur klarstellen, dass alle User-agents (User-agents: *) auf alle Verzeichnisse und Dokumente zugreifene können (Disallow: ), da man dadurch 404 Einträge in den Errorlogs verhindert, die andernfalls dann auftauchen, wenn der Crawler die Datei nicht findet.
Beispiel für eine minimale robots.txt
# robots.txt Beispiel: Mininmale robots.txt (Alle User-agents, komplette Website)
User-agent: *
Disallow:
Alternative zur robots.txt: Meta Tag auf der jeweiligen Seite
Alternativ zur robots.txt Datei können Sie auch Meta-Tags verwenden um den Robots und Crawlern Anweisungen zu erteilen. Fügen Sie dazu folgendes Meta Tag in den <Head> der entsprechenden Webseite ein:
<META NAME="ROBOTS" CONTENT="index,follow,noarchive">
Wie Sie sehen enthält das Content Feld drei Werte, die durch ein Komma getrennt werden:
1. index oder noindex: bestimmt, ob die Seite indexiert werden darf
2. follow oder nofollow: bestimmt, ob die Links verfolgt werden sollen.
3. archive oder noarchive: bestimmt, ob die Seite gespeichert werden darf
Meta-Tags eignen sich also vor allem für den Ausschluss einzelner Seiten.
Robots.txt des Content Managment System Joomla
Joomla bringt standartmäßig nachfolgende robots.txt im Joomla Root Verzeichnis mit, die Sie im Regelfall nicht bearbeiten müssen. Für den Fall der Fälle gelten aber oben genannte Grundsätze entsprechend.
# Joomla robots.txt (für alle User-Agents ist das Crawlen nachfolgender Verzeichnisse gesperrt)
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sie wundern sich vieleicht weshalb so viel Ordner vor dem Crawling der Bots geschützt sind. Die Antwort liegt darin, dass bei Joomla die Inhalte in der Datenbank abgespeichert und beim Aufrufen einer Webseite ausgelesen werden. Die Crawler würden also auf der Suche nach Inhalten in den oben genannten Ordnern sowieso nicht fündig.

