Wie kann ich verhindern, dass meine Web-Site oder bestimmte Dokumente gecrawlt werden?
Yahoo! Slurp beachtet den Robot Exclusion Standard, insbesondere den 1994 Robots Exclusion Standard (RES).
Yahoo! Slurp beachtet den ersten Eintrag in der robots.txt Datei mit einem User-Agent "Slurp". Ist ein solcher nicht vorhanden, beachtet Yahoo! Slurp den ersten Eintrag mit einem User-Agent "*".
Ausgeschlossene Dokumente, einschließlich der Homepage, werden nicht indexiert, noch wird den Links in diesen Dokumenten gefolgt. Yahoo! Slurp liest die Homepage jeder Seite für interne Zwecke, indexiert sie und folgt ihr jedoch nicht, wenn er davon ausgeschlossen ist. Die URL eines für den Yahoo! Slurp ausgeschlossenen Dokuments kann aber unter Umständen dennoch über die Yahoo! Suche gefunden werden, wenn diese über andere öffentlich zugängliche Web-Dokumente verlinkt ist.
Beispiel für eine robots.txt Datei:
- User-agent: Slurp
- Disallow: /cgi-bin/
Groß- und Kleinschreibung muss beachtet werden
Bei Anweisungen innerhalb der robots.txt Datei muss Groß- und Kleinschreibung beachtet werden.
Beispiel:
- User-agent: Slurp
- Disallow: /private
- Disallow: /Private
- Disallow: /PRIVATE
Weitere Zeichen
Weitere zugelassene Zeichen für die robots.txt Datei sind:
-
'*' - Platzhalter für eine beliebige Zeichenfolge innerhalb der URL/des Pfades
-
'$' - Markiert das Ende einer URL/eines Pfades
Verwendung des Platzhalters: '*'
Ein '*' innerhalb der robots.txt Datei wird als Platzhalter für eine beliebige Anzahl von Zeichen innerhalb der URL/des Pfades verwendet. Der Platzhalter kann an jeder beliebigen Stelle der URL/des Pfades verwendet werden.
Beispiele für '*':
- User-agent: Slurp
- Allow: /public*/
- Disallow: /*_print*.html
- Disallow: /*?sessionid
Diese robots.txt Anweisung:
- Erlaubt es, alle URLs/Pfade, die mit 'public' beginnen zu crawlen.
Beispiel: '/public_html/' oder '/public_graphs/'
- Verbietet es, alle URLs/Pfade, die '_print' enthalten zu crawlen.
Beispiele: '/card_print.html' oder '/store_print/product.html'
- Verbietet es, alle URls/Pfade, die '?sessionid' enthalten zu crawlen.
Beispiel: '/cart.php?sessionid=342bca31'
Hinweis: Ein '*' am Ende der URL/des Pfades wird nicht benötigt, da Yahoo! Slurp dieses sowieso berücksichtigt. Daher sind in unten stehendem Beispiel beide robots.txt Anweisungen identisch:
- User-agent: Slurp
- Disallow: /private*
- Disallow: /private
Verwendung von: '$'
Ein '$' innerhalb der robots.txt Datei wird am Ende der URL/des Pfades eingesetzt. Ohne diese Begrenzung würde Yahoo! Slurp
alle URLs/Pfade der robots.txt als Präfix behandeln.
Beispiel für '$':
- User-agent: Slurp
- Disallow: /*.gif$
- Allow: /*?$
Diese robots.txt Datei:
- Verbietet es, alle URLs/Pfade, die mit '.gif' enden zu crawlen.
Hinweis: Ohne das '$' würden alle URLs/Pfade, die '.gif' enthalten nicht gecrawled.
- Erlaubt es, alle URLs/Pfade, die mit '?' enden zu crawlen. Dies bedeutet aber nicht, daß alle URLs/Pfade, die irgendwo innerhalb des Strings ein '?' enthalten auch gecrawled werden dürfen.
Das '$' Zeichen macht nur am Ende eines Strings Sinn. Folglich behandelt Yahoo! Slurp ein '$' Zeichen als Ende einer Anweisung und alle darauf folgenden Zeichen werden ignoriert.
Verwendung von Allow:
Die Anweisung 'Allow' wird wie in obigen Beispielen beschrieben verwendet.
Weitere Details finden Sie unter: