Contenuti duplicati: La Guida SEO Definitiva

Non è un segreto che i contenuti duplicati siano presenti in molti siti web, ma la vera domanda di oggi è: i contenuti duplicati hanno un impatto sulla SEO?

In questa guida vediamo per filo e per segno tutto quello che riguarda questa tematica, da ormai 10 anni a questa parte così dibattuta nel mondo SEO, e alcune linee guida.

Cosa si intende per "contenuto duplicato"?

Sarebbe inutile proseguire il discorso senza prima dare una definizione ben precisa dell'oggetto di questa guida. Per non lasciare spazio a libere interpretazioni, possiamo rifarci alle parole ufficiali di Google:

Il termine "contenuti duplicati" si riferisce in genere a blocchi considerevoli di contenuti all'interno o tra i domini che sono identici o molto simili. In genere questa pratica non è all'origine ingannevole.

— Guida di Search Console

Qui la fonte.

Ma andiamo subito al sodo e soprattutto dedichiamoci alle considerazioni più tecniche.

In pratica, si ha una situazione di contenuti duplicati quando gli stessi paragrafi sono presenti in due pagine aventi URL differenti. E qui farei subito una piccola precisazione: questa definizione vale se entrambe le pagine sono presenti nell'indice di Google.

Penalizzazione per contenuti duplicati

La questione dei contenuti duplicati ha sempre creato molta confusione tra i professionisti del settore e anche Google si è pronunciato più volte per dare forti chiarimenti in merito.

Già in un lontano video di fine 2013, Matt Cutts, former head of Google web spam, era intervenuto affermando che "you don’t have to worry about it. Google doesn’t treat duplicate content as spam".

Nonostante non vi sia una vera e propria penalizzazione ad hoc per i contenuti duplicati come afferma Google, è bene evitare queste situazioni borderline: se la copia ha un intento di manipolazione dei ranking, allora il sito Web potrebbe subire conseguenze pesanti fino alla deindicizzazione.

Nei rari casi in cui ci accorgiamo che i contenuti duplicati potrebbero essere visualizzati con l'intento di manipolare i nostri ranking e ingannare i nostri utenti, apportiamo le necessarie modifiche all'indicizzazione e al ranking dei siti interessati. Di conseguenza, il ranking dei siti potrebbe peggiorare oppure i siti potrebbero essere rimossi completamente dall'indice Google e non compariranno più nei risultati di ricerca.

— Guida di Search Console

Consideriamo che, secondo uno studio di RavenTools, circa il 29% delle pagine web presenta contenuti duplicati e se esistesse davvero una specifica penalizzazione, l'impatto sarebbe devastante per milioni e milioni di siti.

A questo punto vorresti chiedermi: Federico, perché Google ha un'avversione per le pagine duplicate?

Perché Google odia i contenuti duplicati?

Prima di tutto, gli utenti in una SERP (Search Engine Results Page) vogliono vedere diversità e non lo stesso identico contenuto riproposto tale e quale su domini diversi e Google deve accontentare il suo pubblico, come ben sai.

In secondo luogo, quando Googlebot trova due contenuti identici in due URL diversi, come fa a decidere qual è la fonte originale? Google si trova davanti un bivio e per scegliere quale strada percorrere, l'algoritmo considera la data di indicizzazione e altri fattori, tra cui l'autorità del sito.

In terzo luogo, per il bot scansionare decine di pagine identiche è uno spreco di crawl budget e va a discapito dell'indicizzazione di pagine legittime con contenuti freschi, comportando una potenziale perdita di traffico per il tuo sito.

Infine, in ottica di link building, ottenere backlink verso più pagine diluisce la forza del link stesso, soprattutto se al tuo posto viene linkato un concorrente che ha copiato un tuo contenuto.

Quali sono le cause della presenza di contenuti duplicati?

Vediamo immediatamente tutte le cause più frequenti.

#1 Plagio

Al di là dei risvolti legali del plagio o copia di contenuti da siti altrui, Google offre uno strumento gratuito, detto DMCA Dashboard, che lo informa di queste situazioni per permettergli di rimuovere immediatamente dal suo indice i trasgressori, senza attendere le lungaggini di un processo civile.

Se in molti casi è una situazione voluta, capita ancora più spesso che il webmaster non si accorga della situazione, ma ne subisca silenziosamente le conseguenze. Si tratta, ad esempio, dell'uso improprio di immagini trovate nel Web o nella copia di pensieri o testi di altri siti senza citarne la fonte.

Per approfondire puoi leggere: Software antiplagio: verifica se i tuoi contenuti sono stati copiati.

#2 Versioni diverse del sito

Sto parlando del caso di HTTP/HTTPS e www/non-www, situazioni che si verificano quando il webmaster non ha implementato un redirect 301 tra le varie versioni del sito.

Ad esempio, senza un redirect, Googlebot può accedere alla medesima pagina (con e senza www) tramite 4 URL diversi:

https://example.com
http://example.com
https://www.example.com
http://www.example.com

Per impostare un redirect si può usare il file .htaccess oppure appositi plugin WordPress come All In One Redirection.

#3 Parametri

Se i parametri sono utili e facilitano la vita agli sviluppatori, da un punto di vista SEO, generano URL diversi che diventano un vero grattacapo per il SEO Specialist di turno.

Non tutti i parametri sono uguali.

https://example.com/articolo?fonte=ppc
https://example.com/pantaloni?colore=rosso

Esistono parametri di tracking che non hanno alcuna influenza sul contenuto della pagina e possono essere tranquillamente ignorati, applicando un link canonical nella sezione <head> della pagina, che permette di specificare la versione principale.

<html>
 <head>
 <title>
 <link href="https://www.esempio.it/articolo-ufficiale" rel="canonical">

In questo modo Google non indicizzerà tutti i diversi valori del parametro, evitando così di inserire decine o centinaia di inutili contenuti duplicati nel suo database.

Esistono anche parametri che letteralmente cambiano il testo della pagina.

Mi riferisco alla famosa faceted navigation, cioè quel filtro che compare spesso negli e-commerce di prodotti fisici per filtrare la pagina per prezzo, colori, varianti e altre caratteristiche.

Da un punto di vista SEO, questa situazione è molto delicata. A seconda dei casi, potrebbe esserci interesse a ignorarli oppure a considerarli come dirimenti per generare pagine separate con posizionamenti e finalità indipendenti.

Ad esempio, le pagine "pantaloni da donna marroni" e "pantaloni da donna blu" avranno contenuti distinguibili, che potranno essere mostrati in SERP differenti con visitatori interessati a prodotti completamente diversi.

Per approfondire leggi il post: Contenuti duplicati in Ecommerce: 8 casi e loro soluzioni.

#4 Thin content

I contenuti scarni o thin content, di solito, sono pagine eccessivamente brevi oppure che non hanno nulla di originale, ma che ripresentano sezioni del sito già pubblicate in altri URL.

Rientrano in questa definizione le pagine archivi di WordPress come tag, autori e date. Questi contenuti possono essere arricchiti con approfondimenti originali oppure è possibile usare un meta tag "noindex, follow".

<meta content="follow,noindex" name="robots">

Un discorso a parte merita la questione della paginazione, ossia degli archivi contenenti elenchi di post in più pagine, come 2,3,4,5. Vale lo stesso discorso appena affrontato sopra: o si arricchisce il contenuto oppure si usa il meta tag "noindex, follow".

#5 Boilerplate content

Spesso non si fa caso al boilerplate content, cioè il contenuto presente in header, footer e sidebar, ma per molti siti rappresenta buona parte del testo nella pagina ed essendo presente in ogni URL, può diventare un problema.

Una soluzione può essere l'implementazione di variazioni in base alla sezione del sito in cui si trova l'utente. Ad esempio, parlando di un comparatore di hotel, è inutile mostrare nella sidebar l'elenco delle province dell'Emilia-Romagna se siamo su una pagina della Liguria.

Soluzioni pratiche al problema di contenuti duplicati

Vediamo adesso alcune soluzioni pratiche per gestire i contenuti duplicati.

1. Comunica a Google come gestire i parametri

Nel tuo account Search Console c'è un'apposita sezione "Parametri URL" dove puoi specificare la funzionalità di ciascun parametro. Così potrai informare Google su come considerare i vari parametri quando li incontrerà nella prossima scansione.

Gestione parametri in Google Search Console

Pannello di gestione dei parametri in Google Search Console

Nella procedura, per ciascun parametro potrai scegliere:

No, non influisce sui contenuti della pagina (ad esempio: tiene traccia dell'utilizzo).
Sì, modifica, riordina o limita i contenuti della pagina.

2. Canonical Link

Specificando la versione ufficiale della pagina, indicherai a Google di non indicizzare le eventuali varianti che potrebbe trovare durante la scansione del sito.

<link href="https://www.esempio.it/articolo-ufficiale" rel="canonical">

3. Redirect 301

Usando il file .htaccess potrai implementare un redirect 301 tra pagine identiche che non hanno utilità pratiche, evitando di sprecare crawl budget.

Ad esempio, per reindirizzare da non-www a www con .htaccess si possono usare queste regole:

RewriteEngine On
 RewriteCond %{HTTP_HOST} !^www\.
 RewriteRule ^(.*)$ http://www.%{HTTP_HOST}/$1 [R=301,L]

Per approfondire leggi la Guida SEO ai Redirect 301: come e quando usarli.

4. Rel Alternate

In presenza di diverse versioni del sito, come nel caso di multilingua o mobile, dovresti usare il rel="alternate":

<link rel="alternate" href="http://example.com/article-fr" hreflang="fr-fr" />
 <link rel="alternate" href="http://example.com/article-it" hreflang="it-it" />

In questo modo, Googlebot saprà che non sono contenuti duplicati, ma versioni della medesima pagina.

Ora ti starai chiedendo: Federico, come trovo le pagine con questi contenuti nel mio sito?

Ecco come trovare i contenuti duplicati in un sito

Innanzitutto, dobbiamo distinguere il tipo di duplicazione dei contenuti, in relazione al luogo in cui avviene.

Contenuti duplicati tra domini diversi

Per trovare contenuti duplicati esterni al sito esistono servizi appositi come Copyscape oppure è possibile cercare manualmente una o più frasi del proprio articolo, usando le virgolette su Google.

Ricerca su Google tra virgolette

Contenuti duplicati interni (nello stesso dominio)

All'interno di uno specifico dominio, il modo migliore per trovare pagine con contenuti duplicati è l'uso di un crawler esterno. Esistono varie soluzioni in cloud come SEMrush oppure desktop come Screaming Frog.

Per fare un esempio pratico, come mostrato in questo tutorial, dopo aver effettuato la scansione dell'intero sito con un crawler, è possibile lavorare sul report CSV generato dal software, al termine dell'analisi del dominio inserito, per riconoscere i contenuti duplicati.

#1 Confronta i tag title e le meta description

Identifica tutti gli URL che hanno il medesimo title o meta description e assicurati che abbiano già un canonical link, un meta robots noindex o un'altra misura per evitarne la duplicazione nell'indice di Google.

In caso contrario, si tratterebbe di veri e propri contenuti duplicati che devono essere assolutamente trattati con le soluzioni già esaminate in questa guida.

Non amo soffermarmi sulla teoria ed è proprio per questo che vorrei di seguito analizzare un caso pratico.

Nella schermata sottostante, il report mostra 5 URL con il medesimo title tag. A prima vista sembrerebbero tutti contenuti duplicati, ma con una più attenta analisi, è evidente che una pagina è "canonicalizzata", ossia possiede un canonical link che punta ad un altro URL.

In questo caso, Googlebot capirà immediatamente che sono due versioni della medesima pagina e dovrà indicizzare solo la prima, in quanto è quella ufficiale. Gli altri 3 URL non hanno implementato alcuna soluzione e sono quindi da correggere.

Tag title duplicati

#2 Confronta gli URL

Volendo essere ancora più precisi nella ricerca, dovresti ordinare gli URL. A colpo d'occhio, potresti subito scoprire se sono stati usati parametri o se ci sono strutture che seguono uno schema ricorrente.

Ad esempio, la paginazione degli archivi WordPress, che spesso contiene thin content, si riconosce visivamente per la struttura dell'URL:

sito.it/page/2
sito.it/page/3
sito.it/page/4

#3 Intervieni nella pratica

Da ultimo, intervieni applicando le soluzioni sopra esposte in base al tipo di contenuto duplicato che hai scoperto essere presente all'interno del tuo sito.

Domande frequenti

A corredo di questa guida, vorrei rispondere ad alcune domande frequenti sull'argomento.

Che differenza c'è tra plagio e content curation?

A differenza del plagio, la content curation consiste nel riproporre parti di testi altrui offrendo del valore aggiuntivo e citando l'autore in qualità di fonte.

Tecnicamente è un contenuto duplicato, ma d'altra parte Google sa benissimo come trattare queste situazioni e milioni di siti condividono contenuti su Facebook e Twitter. Si possono comunque usare delle accortezze, come l'uso di un backlink alla fonte e l'implementazione del canonical link.

Panda Update ha colpito i siti con contenuti duplicati?

I veterani del mondo SEO ricorderanno Febbraio 2011 quando fu rilasciato il famoso Panda Update. Si trattava di un filtro per penalizzare siti dotati di thin content oppure contenuti deliberatamente duplicati per manipolare i ranking di Google ed è ancora così anche ai giorni nostri.

Adesso è il tuo turno. Come gestisci di solito i contenuti duplicati nei tuoi siti web?

Aspetto i tuoi commenti.

Contenuti duplicati: la Guida SEO Definitiva