Au cours des dernières années et de l’évolution des moteurs de recherche, le fonctionnement des algorithmes a changé plusieurs fois concernant le contenu dupliqué. A l’origine, le « duplicate content » n’était même pas pénalisé, ce qui permettait à certains de manipuler les Serps en utilisant des techniques qui s’apparentait à du vol de contenu pur et simple. Google a rapidement réagi pour réfréner ce type d’agissement, et ce qui était considéré comme du duplicate content pouvait alors pénaliser lourdement un site, et même aller jusqu’à provoquer une désindexation. Mais aujourd’hui qu’en est-il ? Est-ce que le duplicate content généré par une structure de site est pénalisé de la même manière que le duplicate content entre deux domaines différents ? Quel est le risque réel pour les annonceurs ?
Quels sont les différents types de contenu dupliqué ?
L’évolution des moteurs de recherche leur a permis d’être plus pertinent dans la lutte contre le duplicate et il faut maintenant distinguer les différents types de duplication pour comprendre ce qui est pénalisé, et dans quelle mesure. Il est important de noter qu’avec le développement des CMS, le duplicate structurel est assez répandu, et Google tente de rassurer les éditeurs de site sur ce point. Dans les « Guidelines officielles » de la Search console, on peut lire la déclaration suivante :
« Le contenu dupliqué sur un site n’est pas considéré comme une alarme et ne déclenche pas une pénalité automatiquement de la part du moteur – à moins que l’algorithme détermine que le but du contenu est de manipuler les résultats de recherche et de le tromper ».
Voilà de quoi rassurer bon nombre d’annonceur. Il faut cependant continuer à lutter contre les contenus dupliqués et quel que soit leurs sources, pour des raisons que nous allons découvrir un peu plus loin. Les principaux types de contenus dupliqués sont les suivants :
- La duplication exacte : deux URLs affichent le même contenu
- La duplication approximative : deux éléments sont très (trop) proches, et ne diffèrent que par quelques éléments.
- La duplication entre noms de domaines : deux contenus sont similaires mais hébergés sur des noms de domaines différents.
- La duplication structurelle : l’architecture de votre site n’est pas optimale, et permet d’accéder à un même contenu par deux URLs différentes (dynamiques ou statiques), générées par exemple par votre CMS
- La duplication « normale » : le fait de reprendre un contenu en citant la source ainsi que le type de licence auquel le contenu est soumis.
Comme vous pouvez le constater, il existe une myriade de raisons et d’objectifs différents dans la duplication de contenu.
Pourquoi faut-il lutter contre la duplication de contenu ?
Si le risque de pénalité manuel est aujourd’hui plus réduit (notamment grâce au filtre Panda désormais intégré à l’algorithme en temps réel), les annonceurs ont quand même tout intérêt à lutter contre le duplicate, pour les raisons suivantes :
- Vous perdez du « budget crawl »: le google bot vous accorde un certain nombre de « crédits », qui sont utilisés pour chaque page parcourue par le robot. Si ce dernier passe sur des pages similaires, vous perdez donc l’opportunité de voir d’autres pages de votre site indexées.
- Vous perdez du « jus SEO » en faisant des liens vers des pages qui ne seront pas indexées. En effet du fait de la structure de votre site, des liens internes pointeront vers une page qui ne sera pas indexées par Google. Vous diffusez donc votre autorité de page au lieu de la concentrer sur un nombre de pages plus réduit.
- Vous n’êtes pas maitre de la décision du moteur de recherche : si ce dernier décide d’indexer la moins intéressante de vos pages qui possède le même contenu, vous ne pourrez rien y faire, hormis supprimer la moins intéressante des deux pages.
Le dernier cas, assez courant, est une bonne illustration de l’importance de la lutte contre le duplicate. Imaginez que vous produisez un contenu associé à un « call to action », mais, du fait d’un mauvais paramétrage de votre CMS, ce contenu se retrouve sur une autre URL, la différence près que celle-ci ne possède pas votre call to action. Si le google bot index cette dernière au détriment de la première, vous risquez de voir ranker une page qui ne vous permettra pas de transformer, et vous perdrez des conversions potentielles.
Comment lutter efficacement contre le duplicate content ?
Vous l’aurez compris, la duplication de contenu n’est pas appréciée par Google, même s’il la pénalise moins qu’avant. Il faut donc vous en prémunir, et vous avez pour cela plusieurs moyens à votre disposition :
- Utiliser la balise rel= « canonical », et implémenter la sur votre site de façon manuelle ou automatique. Si vous décelez que des pages générées dynamiquement par votre structure de site renvoient au même contenu, faite en sorte que cette balise soit placée dans le header de la page dupliquée, avec le lien de la page « originel ». Le Google bot comprendra alors qu’il faut privilégier celle que vous lui indiquez.
- Dans le cas de problèmes structurels, un bon paramétrage de votre robots.txt peut également vous être d’une grande aide. En refusant au bot de crawler certaines parties de l’arborescence de votre site, vous pouvez empêcher le conflit d’indexation entre les « vraies » pages et celles que vous préférez ne pas voir indexées.
- Utilisez des redirections 301 pour corriger le tir, et faire pointer des URLs différentes vers une seule page finale hébergeant le contenu (attention cependant à ne pas abuser des redirections). Que ce soit dans le cadre de la maintenance de votre site ou bien suite à une refonte qui a perturbé votre architecture, vous pourrez ainsi faire le ménage sans perdre la force SEO de liens pointant vers vos pages obsolètes. De plus, vous éviterez la multiplication d’erreurs 404 sur votre site.
La dernière solution reste la plus efficace et la plus définitive, elle peut cependant être compliqué à mettre en place sur un site volumineux. Il est préférable dans ce cas de faire appel à une agence spécialiste du référencement, qui possède des outils de crawls avancé afin de choisir judicieusement comment opérer les redirections.
Vous pouvez aussi consulter cette ressource sur le sujet : https://searchengineland.com/dealing-duplicate-content-283943