A partir du premier septembre prochain, les éléments officiellement reconnus (et utilisés) par le google bot dans votre fichier robots.txt vont faire l’objet d’une mise à jour. Parmi les points les plus importants à noter, la fin de la prise en compte du “noindex”, du “crawl-delay” et du “nofollow”. Bien que le débat sur la discipline de Google concernant ces éléments ait été vif depuis quelques années (tous les professionnels du SEO ont vu des pages déclarées en “noindex” se retrouver dans l’index de Google), la fin officielle de ces indications est un tournant majeur dans les processus classiques d’optimisation SEO d’un site. Ces modifications sont réalisées à cause de l’ouverture (passage en open source) du code qui gère le parser de Google pour le robots.txt.
Un robots.txt pour gérer le crawl et non l’indexation
La décision de Google est justifiée par le fait que le robots.txt est un outil qui doit demeurer entièrement au service du crawl et ne pas servir à diriger l’indexation d’un site. Certain auront déjà noté qu’il est assez paradoxal d’afficher cette raison et de supprimer le respect du “crawl-delay” par le Google Bot dans le même temps. Passons. Il est précisé dans le communiqué de Google à ce sujet qu’il demeure possible de déclarer les interdictions de son choix dans le robots.txt à destination des autres parsers (donc des robots des autres moteurs de recherche).
Arguant du fait que, de toute façon, les directives “nofollow” ou “no index” n’avaient jamais été officiellement reconnu par Google, ils précisent que l’arrêt du respect de ces premières ne sera pas un problème pour la majorité des sites.
L’argument SEO mis en avant par les ingénieurs de Google est plus intéressant : ils indiquent que les directives du robots.txt provoquent quasi systématiquement des contradictions par rapport à d’autres directives (dans le header du HTML par exemple). D’après leurs données, ce cas de figure concerne 99,99% des sites présents dans l’index Google.
Quelles sont les méthodes alternatives pour gérer le crawl ?
Pour éviter l’indexation de pages non pertinentes, il existe des méthodes alternatives qui demeurent et ne nécessitent pas l’utilisation du robots.txt.
Voici celles qui sont mentionnées par Google :
- Indiquer la directive “noindex” dans les meta tags du robots : il s’agit d’après Google de la façon la plus efficace pour s’assurer que des urls non pertinentes ne soient pas prises en compte dans l’index. Cependant l’expérience nous indique que ce n’est pas toujours le cas,
- Utiliser des codes de réponse 404 et 410 sur les pages à désindexer : cette solution est envisageable mais parfois complexe à mettre en oeuvre puisqu’il est incohérent d’avoir une page présente pour l’internaute mais d’envoyer un code 404 au google bot (quid par exemple d’une page de mentions légales qui ne présente aucun intérêt SEO et que vous ne voulez pas voir indexée),
- Protéger vos contenus derrière un mot de passe : encore une fois, cette solution est utilisable dans certains cas mais pas pour des pages publiques qui doivent être consultables par tous,
- Utiliser la directive “disallow” dans le robots.txt : en toute logique, si un contenu ne peut pas être crawlé, il est peu probable que l’url apparaisse dans l’index Google. Cependant nous avons croisé de nombreux cas qui contredisent ce point, puisque le Google Bot découvre l’url de la page en question via un lien interne et l’index quand même sans avoir parsé le contenu. D’après Google cependant, une modification du parseur permettra à l’avenir de rendre moins visible dans l’index la page concernée,
- La dernière solution proposée par les équipes de la firme de Mountain View est l’utilisation de l’outil de désindexation de la Search Console : “Url remove tool”. Cependant nous ne listons pas cette possibilité au même rang que les autres puisqu’elle ne permet qu’une désindexation temporaire des urls en question.
L’avis des SEO sur la question
Cette annonce a provoqué quelques remous chez les professionnels de la discipline. Pour une partie d’entre eux, cette disparition des directives n’est pas très problématique car ils utilisaient des méthodes alternatives. Cependant une majorité d’entre eux pointe du doigt des incohérences dans le discours de Google. De plus, ils relatent certains cas particuliers pour lesquels ils n’existaient pas vraiment d’autre alternative au robots.txt pour gérer le budget crawl. La majorité des cas concernent des sites volumineux usant des CMS complexes.
Il apparaît donc que la qualité du siloing et la précision de ce dernier vont devenir plus importantes que jamais. En effet la structure de votre site sera amenée à devenir le meilleur moyen de gérer votre budget de crawl. Dans le cas d’une refonte de site, il est plus important que jamais de travailler ce point en profondeur. Pour en savoir plus n’hésitez pas à contacter nos experts afin d’échanger avec eux sur votre projet.