Contenu dupliqué et copié : comment éviter les sanctions et localiser le contenu en double avec des outils simples ?

Un projet éditorial de grande valeur repose sur un contenu unique et original, sur la valeur particulière que vous êtes en mesure d’offrir à vos visiteurs et qui vous rend pertinent par rapport à vos concurrents : présenter des copies du contenu d’autrui, c’est donc ne rien offrir de nouveau et éclipser implicitement ceux qui ont donné naissance à quelque chose de jamais vu. Comme dans le domaine de la rédaction, même dans l’habillage graphique et structurel, il n’est pas agréable de copier les autres. Actuellement, la probabilité qu’un utilisateur remarque que notre site présente les mêmes graphiques qu’un autre éparpillé sur le web est peu probable compte tenu du nombre de sites web réalisés. Mais en termes de correction et de réputation, c’est certainement un aspect à prendre en considération.

Les contenus dupliqués sont des blocs de texte substantiels complètement similaires entre eux, voire exactement identiques, ce qui peut signifier pour Google des éléments de mauvaise qualité, car probablement copiés - souvent sans aucun consentement - à partir d’autres sources.

Duplicata, au point de provoquer une véritable pénalité ?

Pénalité pour contenu dupliqué : existe-t-elle vraiment ?

Il n’y a pas de pénalité du tout pour le contenu dupliqué, ou du moins pas telle qu'elle est comprise dans le langage courant. Google lui-même exhorte les webmasters à ne pas perpétuer le mythe de la pénalisation sur le contenu dupliqué. Certains comportements - en particulier la reproduction de portions de texte sans valeur ajoutée - sont expressément découragés par le guide du webmaster, surtout si cela est fait à des fins malveillantes, comme la création de réseaux de sites peuplés de copies du contenu d’autres personnes dans le seul but de gagner de l’argent grâce à la publicité. Google vous décourage en effet de vous approprier le contenu d’autrui, car cela ne se traduit pas par autre chose que d’offrir aux internautes des copies de quelque chose qui existe déjà, donc sans aucune valeur intrinsèque : reproduire des vidéos, des images et des textes d’autrui sans apporter quoi que ce soit de nouveau se traduit donc par une violation du droit d’auteur - si cela est fait à l’insu de l’auteur - et une stratégie de promotion à long terme dénuée de toute valeur. Ce que fait Google face aux contenus dupliqués, c’est faire une sélection en amont pour éviter que les internautes soient assaillis par plusieurs versions identiques en réponse aux recherches : il fait un « cluster » de copies de résultats identiques et parmi celles-ci, il essaie d’identifier quel est le producteur original - par exemple, en se basant sur la popularité en termes de liens - pour montrer l’une au détriment des autres.

La pénalisation des contenus dupliqués par inadvertance 

Lorsque plusieurs contenus identiques accessibles depuis plusieurs URL sont hébergés sur un portail, les crawlers ne comprennent pas quelle version montrer et cela peut théoriquement nuire au placement. Ce qui effraie souvent les blogueurs et les webmasters, c’est la possibilité d’être pénalisés en raison de problèmes ou d’inexactitudes techniques, comme des URL différentes qui renvoient au même contenu. Par exemple, des articles identiques qui peuvent être atteints à partir de plusieurs adresses dans le même portail, qui ne sont pas des vols de contenu d’autrui mais des inefficacités techniques, pourraient nuire aux performances d’un portail par l’utilisation inutile du crawler pour scanner des pages en double au lieu de nouvelles ressources. À moins qu’il n’y ait une réelle intention malveillante à la base de la duplication, il n’y a normalement pas lieu de s’inquiéter de pénalités hypothétiques si nous parlons de duplications internes non désirées causées par des problèmes techniques.

Les sanctions redoutées visent, le cas échéant, la reproduction du contenu d’autrui sur votre propre portail, une action menée dans l’intention d’obtenir un avantage matériel au détriment des droits d’autrui. En cas de versions multiples d’un domaine, d’un sous-domaine ou de pages, n’oubliez pas d’indiquer la version préférée, via le plan du site ou la Search Console selon le cas, pour éviter d’offrir aux crawlers des versions égales et redondantes inutiles.

Comment localiser un contenu illégalement copié ?

Si c’est vous qui avez été plagié, n’oubliez pas que vous avez l’outil pour soumettre une demande de considération pour violation du Digital Millennium Copyright Act si quelqu’un a reproduit votre contenu pour en tirer profit sans votre permission. Naturellement, le problème qui vous intéresse le plus est de savoir comment identifier rapidement qui a eu le culot de s’approprier le fruit de vos efforts. Bien souvent, ceux qui remplissent leur portail de répliques de nos articles ne daignent même pas nous honorer d’un lien et encore moins reconnaître la propriété intellectuelle de l’auteur. Google vous offre une bonne aide de ce point de vue, car, en signalant les blocs de phrases placés entre les guillemets « » (formulation qui indique l’intérêt de vérifier l’expression textuellement identique), vous pouvez vérifier s’il existe des contenus indexés identiques à ceux que vous avez produits, et enquêter sur leur origine. Si vous avez des ennuis parce que vous avez été lésé, vous pouvez bien sûr écrire au propriétaire du site de copie pour demander la suppression du duplicata ou au moins un lien vers une « compensation » (si vous pensez que cela pourrait vous apporter des avantages quelconques) ; si vous n’obtenez aucun résultat de cette manière, vous pouvez utiliser le rapport sur les pages de copie de Google pour indiquer quel est le contenu original et lequel ne l’est pas.

Quelques outils pour localiser les contenus en double

Voici quelques outils pour découvrir les contenus en double qui peuvent vous aider à attraper les scripts web !

Plagium

Il s’agit d’un outil très facile à utiliser qui consiste à insérer dans une fenêtre des portions de texte à vérifier (jusqu’à 5 000 caractères). Dans la version payante, il est possible d’effectuer des recherches plus rapides ou plus approfondies.

Dupli Checker

Un autre outil gratuit à la portée de tous qui permet de découvrir des copies non autorisées de textes, écrits directement ou téléchargés à partir de fichiers, et de vérifier l’étendue du délit.

Plagiat

C’est un site qui met en évidence, à partir de textes écrits et d’URL, quelles autres pages les signalent, et s’avère être un outil très approprié pour détecter les violations des droits d’auteur.

Siteliner

Un outil encore plus complet qui vous permet à la fois de détecter les doublons et d’analyser d’autres caractéristiques d’un portail telles que les liens brisés (il vous permet de vérifier les 500 pages les plus importantes d’un site web).

Copyscape

Un outil encore plus complet pour détecter les copies non désirées. Il suffit d’entrer l’adresse du domaine qui vous intéresse et, grâce aux algorithmes de « découverte de copies » valables, vous obtiendrez des références à des sites qui, pour une raison ou une autre, font état d’un contenu identique à certaines de vos publications.

PlagScan

Ce site semble destiné aux milieux universitaires pour mettre en évidence les doublons, disponibles pour les utilisateurs individuels et les organisations. Il comprend un essai et un plan rémunéré pour dépasser la recherche.