Fichier robots.txt pour WordPress

14Nov, 2017

S’il y a un fichier à créer sur votre site et à déposer via le FTP c’est le fichiers robots.txt.

Dès que le robot arrive sur un site, la première chose qu’il fait et de chercher ce fichier txt.

Qu’est ce que le fichier robots.txt ?

Je l’ai écrit juste avant, les moteurs de recherche ne sont que des robots qui sont envoyés partout sur le web pour trouver les pages et calculer les bonnes positions des pages et des sites. Ces robots sont des petits programmes rapporteurs, de vrais « mouchards » qui divulguent tout ce qu’ils trouvent. Il convient donc de les brider un peu si l’on ne souhaite pas que tout se retrouve à la vue de tout le monde.

Ce n’est pas à confondre avec les balises meta du type noindex, nofollow.

Le fichier robots.txt contient les indications pour bloquer ou laisser l’accès à

  • des fichiers,
  • des pages,
  • des répertoires,
  • des types de fichiers

S’il n’est pas présent, non seulement le robot perd du temps mais en plus, il consulte tout.

Pour rappel, un robot n’a qu’un certain temps à passer sur votre site avant de passer au suivant. Si celui-ci passe déjà beaucoup de temps à chercher le fichier en question, il n’aura plus assez de temps pour consulter ce qui est intéressant pour vous. Si vous le laisser consulter des pages et répertoires sans intérêt, vous perdez également du temps à consacrer à votre référencement.

Ce fichier txt est à placer à la racine de tout site web. Il ne peut y en avoir qu’un seul par site.

Dans ce qui suit, je vous donne un fichier, je ne vous donne pas les explications ou les moyens d’en créer un grâce aux très nombreuses commandes disponibles. Si vous avez envie de bidouiller un super fichier, libre à vous, vous trouverez toutes les ressources nécessaires sur Google.

Le fichier robots.txt sert à éviter l’indexation de certaines pages et dossiers sensibles d’un site internet.
Le fichiers robots.txt permet d’éviter à certains robots de visiter le contenu de ces pages et de ces dossiers.
Ces robots peuvent être utiles, comme le robot Google (googlebot) par exemple, ou d’autres moteurs de recherche, mais il peut aussi être indésirable ou néfaste.

Il faut donc adapter un minimum le fichier robots.txt

Le fichiers n’est pas à confondre avec le fichier htaccess

L’indexation permet de faire apparaitre une page dans les résultats de recherche sur internet (pas seulement sur Google).

Pour le CMS WordPress il convient de réaliser un fichier robots.txt simple et adapté

Le fichier que je vais fournir ci-dessous est la base, il peut être modifié, amélioré. Attention à ne pas faire n’importe quoi au risque de ne plus satisfaire les exigences des robots utiles à votre référencement.

User-agent: *

Disallow: /wp-login.php

Disallow: /wp-admin

Disallow: /wp-content

Allow: /wp-content/uploads/

 

Il est possible de trouver des fichiers comportant ces lignes ci :

Disallow: /*.css$

Disallow: /*.js$

 

Je ne suis pas pour.

Google aime consulter la page en entier. Cette consultation lui permet de comprendre ce que le webmaster veut faire ou ne pas faire sur le site.

Pendant un temps, certains petits malins cachés du texte grâce à du JS et du CSS.

Google n’apprécie plus vraiment la blague.

Il part du principe que si quelque chose est cachée contrairement à 99% des autres sites de la planète c’est qu’il y a magouille.

Vous n’avez rien à vous reprocher ? Laissez le consulter.

Par contre, vous pouvez ajouter ces lignes pour quelques robots indésirables. JE NE LE CONSEILLE PAS

Il suffit juste d’ajouter User-agent: LE-NOM-DU-ROBOT avant les lignes

Voici une liste des user-agent les plus répandus :

https://udger.com/resources/ua-list

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *