Le fichier robot
Le fichier robot
Le fichier robot
Si vous ne connaissez pas encore, je vous présente le fichier "robot.txt". Il sert à autoriser ou interdire
à certains robots de moteurs de recherche d'indexer des pages ou parties de votre site.
Vous devez mettre votre fichier "robot.txt" à la racine de votre site car les spiders (robots qui analysent votre site)
regardent ce fichier en premier lieu pour suivre vos interdictions.
Le bloc-note ou NotePad suffit pour écrire ce fichier. Vous pouvez limiter l'accès à une ou plusieurs
page(s) ou partie(s) de votre site à tout les moteurs de recherche ou à certains moteurs de recherche.
Voyons ce que l'on peut faire avec ce fichier
| Commande | description |
| User-agent: | indique le nom du ou des
moteurs autorisés à examiner le site |
| User-agent: * | indique que tous les
moteurs sont autorisés à examiner le site |
| User-agent: nom_du_robot | indique le nom
du robot du moteur |
| Disallow: | interdit soit un robot, un
dossier, un fichier |
| # | indique une remarque non prise en
compte par les robots |
| / / | indique ce qui est interdit au robot
entre ces signes |
| | | | une ligne vide indique une nouvelle
commande |
exemple
| Commande | description |
| User-agent: * | tout les moteurs sont autorisés à référencer votre site |
| Disallow: /secret | tout votre site est référencer sauf le dossier "secret" |
| Disallow: /prive/page.htm | tout votre site est référencer sauf le fichier "page.htm"
situé dans le dossier "prive", mais tout le reste du dossier "prive" est référencé. |
Il y a aussi la commande "Allow:". Elle sert au cas ou vous laissez un robot visité une page mais pas le repertoir
où il se trouve.
Exemple
| Commande | description |
| User-agent: * | tout les moteurs sont autorisés à référencer votre site |
| Disallow: /secret | le dossier "secret" n'est pas référencer sauf la page "gratuit.htm" |
| Allow: /secret/gratuit.htm |
attention : faite attention au majuscule, minuscule !!! Le fichier robot.txt se complète avec les balises meta car les spiders ne regardent pas toujours après ce fichier. En voici les
4 variables :
| Code | description |
| <meta name="robots"
content="index, follow"> | les robots indexent la page et suivent les liens se
trouvant dessus |
| <meta name="robots" content="index, nofollow"> | les robots indexent la page mais ne suivent pas les liens se trouvant dessus |
| <meta name="robots" content="noindex, follow"> | les robots n'indexent pas la page mais suivent les liens se trouvant dessus |
| <meta name="robots" content="noindex, nofollow"> | les robots n'indexent pas la page et ne suivent pas les liens se trouvant dessus |
RETOUR
|