Contenuti duplicati e tutto ciò che Google Panda non vuole

Dai contenuti "sottili" al Google Panda, fino alla gestione delle duplicazioni interne ad un sito

Quando si parla del temutissimo Panda Update, il primo pensiero che si palesa nella nostra mente è il concetto di "pagine duplicate" in un sito. In realtà, però, la duplicazione interna di alcune (o molte) pagine di un sito non è la motivazione primaria che fa scattare il filtro algoritmico anti-spam noto come Panda. Questa cosa John Mueller, trend analyst di Google, lo ha ri-confermato recentemente su Twitter.

John Mueller in merito alle duplicazioni interne di un sito

È bene quindi distinguere le due problematiche, thin content e duplicazioni interne, e comprendere bene la distinzione esistente tra le due problematiche.

Cosa si intende per "Thin Content"

Tradotto in italiano, ci troviamo di fronte a contenuti scarni, con poco o nessun valore aggiunto per l'utente. Pagine che non arricchiscono l'esperienza dell'utente e non rispondono esattamente a quello che sta cercando. Oserei dire anche pagine che "spingono" l'utente ad abbandonare la pagina nel minor tempo possibile.

Come si caratterizzano queste pagine?

A questo link Google fornisce alcune indicazioni (seppur non del tutto esaustive) sulle caratteristiche di questo tipo di pagine. Spesso sono:

contenuti generati automaticamente
pagine affiliate senza valore aggiunto
contenuti proveniente da altre fonti (quindi duplicazioni esterne)
pagine doorway

Benché non ci siano fonti ufficiali che lo attestino, i fattori che possono far contrassegnare la pagina come "scarna" sono anche altri ed hanno a che fare con il concetto di qualità di una pagina, secondo quello che potrebbe essere un punteggio ( rank) che Google assegna ad una specifica pagina.

Come calcola Google questo punteggio qualitativo?

Sicuramente si tengono in considerazione le metriche utente a livello di sito, come tasso di rimbalzo, tempo sul sito, numero di pagine viste e pagina di uscita. Ma questi dati sono a loro volta influenzati da una serie di caratteristiche che deve avere la pagina fruita dall'utente.

A questo link, Google nel maggio 2011 (pubblicata guarda caso 4 mesi dopo il rilascio del primo Panda Update) mise a disposizione una serie di linee guida per la creazione di siti di alta qualità. C'è la convinzione diffusa tra molti SEO che un sito che si presenti all'utente con buona parte delle pagine non ottimizzate secondo le indicazioni qualitative riportate in quella pagina, diventino dei validi candidati al filtro Panda.

Vediamone alcune, secondo me più rappresentative del concetto di qualità.

1. Affidabilità delle informazioni riportate nella pagina.

2. Redazione da parte di un esperto della materia, contro superficialità dell'articolo.

3. Utilizzo di contenuti duplicati o ridondanti su temi identici o simili.

4. Presenza di errori di ortografia o stilistici.

5. Il valore aggiuntivo offerto dalla pagina rispetto agli altri risultati per la stessa SERP.

6. Presenza di annunci pubblicitari che infastidiscono l'utente e non gli permettono un'ideale navigazione.

7. Lunghezza vs brevità dell'articolo e la completezza del tema trattato.

Questi sette punti che ho estratto sono a mio avviso quelli più importanti per comprendere meglio il concetto di "thin content" e la loro correlazione al filtro Panda di Google.

Attenzione quindi!

Non si parla solo di url duplicate ma del fatto che il contenuto offerto all'utente possa essere parzialmente o totalmente identico anche per url differenti. Estremizzando la valutazione, si può affermare che sono siti potenzialmente filtrabili da Panda quelli con i seguenti patterns:

Presentano contenuti testuali brevi e che non soddisfano la query dell'utente;
Mostrano un eccesso di advertising in rapporto al testo presente. Pensiamo a quei siti che ogni 4-5 righe di testo propongono un banner;
Riportano contenuti duplicati (totalmente o parzialmente) da altre fonti esterne (e magari più autorevoli);
Hanno le stesse tematiche trattate in modo poco differente;
Hanno pagine vuote, senza contenuto, offerte all'utente.
Presentano finestre popup invasive che non permettono la lettura dell'articolo;
Pare abbia la sua incidenza anche il fatto che i link a contenuti affiliati presenti sul sito, non abbiano impostato l'attributo "nofollow";

Infine, anche se in maniera minore, pare che un sito che presenti problematiche a livello qualitativo e, al tempo stesso, sia fortemente ottimizzato su specifiche keywords, riesca a passare tranquillamente le fasi di pre-selezione ed arrivare subito alle fasi finali dei candidati Panda. Ovviamente, per finire nel Panda, solitamente questi siti/pagine godono di ottimi posizionamenti per chiavi commerciali.

Come possiamo vedere dunque, la duplicazione interna di url, c'entra poco, se per duplicazioni interne consideriamo problemi di crawling consistenti in url generate da filtri da navigazione, da cms, da feed o da altro, la cui canonizzazione non sia gestita correttamente.

I primi update del Panda, risalenti al 2011, erano facilmente individuabili. I siti colpiti infatti avevano un crollo sostanziale del traffico organico nel giorno stesso di annuncio ufficiale del rilascio dell'algoritmo da parte di Google.

Effetti degli update dell'algoritmo Panda sui siti web

Ora la situazione è un po' diversa, per due motivi:

da un lato Google ha deciso di non annunciare più ufficialmente il rilascio dei nuovi update, così come anche degli altri principali update anti-spam, come il Penguin, il Page Layout Update, ecc.
dall'altro, c'è da dire che gli update collegati al Panda sono così tanti e spesso si concatenano a tanti altri piccoli update strutturali o anti-spam (sempre non ufficializzati da Google, ma frutto di speculazioni dei SEO) che diventa davvero difficile riuscire ad avere certezza della tipologia di filtro algoritmico al quale è soggetto un sito.

In assenza di annunci ufficiali e della certezza di essere soggetti o meno al Panda, la procedura da applicare è quella cautelativa, come si fa con i vaccini. Cercare, quindi, di curare i sintomi prima che la malattia si presenti, a livello di contenuti e qualità del sito, e così andrebbe fatto anche per i link. In fondo, un vecchio detto dice: "Prevenire è meglio che curare". Curare un sito sensibile a Panda (o Penguin) e tirarlo fuori dalla penalizzazione, ti assicuro che è un'attività non proprio semplice e alla portata di tutti.

Duplicazioni interne e gestione tecnica

Veniamo adesso ad un'altra problematica che si presenta soprattutto per i siti realizzati per mezzo di CMS ( Wordpress, Joomla) e per siti di grandi dimensioni, come può essere uno shop online.

La problematica delle url duplicate

Come abbiamo visto prima, la duplicazione delle url interne ha poco a che fare con problemi qualitativi della pagina che si traducono in presenza di contenuti scarni e di poco valore per l'utente. Ciò non toglie che offrire agli utenti e, soprattutto, ai motori di ricerca decine o centinaia di url che presentano lo stesso contenuto non è proprio una bella esperienza per la visibilità del proprio sito.

Ogni sito dispone infatti di un suo crawl budget, ovvero del potenziale di "spidering" del bot e della capacità di questo di arrivare in profondità nel sito. Più un sito è autorevole (grazie alla qualità dei link acquisiti nel tempo) e presenta una buona architettura informativa e alberatura strutturale, tanto più è facile che il bot riesca a scandagliare e ad assorbire tutte le urls presenti.

Per i grossi shop online infatti, il problema principale non è quello di far rankare le singole pagine prodotto, quanto quello di riuscire a farle assorbire dal bot. È facile infatti notare, per siti nuovi e privi ancora di autorevolezza, come l'assorbimento delle pagine sia più lento (e spesso incompleto), rispetto a siti considerati più autorevoli. Per ovviare al problema si agisce spesso settando le priorità giuste della sitemap e pingando a Google le singole url.

Tornando al crawl budget di un sito, se alla vastità del parco prodotti url di un sito aggiungessimo anche una serie di url "non monetizzabili", non utile allo user e allo stesso bot, andremmo a creare ulteriori richieste di crawling al bot, che disperderebbero ancor di più il budget del sito e diminuirebbero il crawl rate delle url realmente importanti (es. landing page dei prodotti). Inoltre, le url duplicate creano un'altra problematica: la dispersione del pagerank della pagina verso risorse non canoniche.

La pagina canonica

Google considera come pagina canonica la url più importante da cui l'utente accede ad una risorsa. Di conseguenza, se ci sono altre url per accedere alla stessa risorsa, queste ultime non saranno considerate canoniche

Vediamo un esempio:

http://www.miosito.com/pagina-canonica.html

http://www.miosito.com/pagina-canonica/prodotto?category=canonica.html

https://www.miosito.com/pagina-canonica

Un sito che presenta diverse risorse accessibili da decine (o centinaia) di differenti url non canoniche, sta sperperando il suo crawl budget e il suo page rank, e di conseguenza potrà manifestarsi un calo nei ranking e una cannibalizzazione delle keywords delle url non canoniche, ovvero quando più pagine competono per le stesse chiavi.

Si parla quindi di duplicazione di url o presenza di pagine non canoniche, che a tutti gli effetti creano pagine duplicate interne al sito.

Tipologie di duplicazioni interne

Quelle di seguito sono le principali tipologie di duplicazioni interne che possono verificarsi in un sito.

1. Http VS Https

2. Www VS Non www

3. Duplicazioni url da filtri e faceted navigation

Pensiamo agli shop online che permettono all'utente di filtrare la ricerca del prodotto per attributi come colore, dimensione, range di prezzo, disponibilità, marca, venditore, ecc.). Tutti questi filtri generano url parametriche che si portano dietro il parametro GET, contenente i filtri richiesti dall'utente, dando luogo a duplicazione sistematica della pagina.

4. Versioni PDF della pagina

5. Contenuti in syndication (es. blog)

6. Slash VS Non Slat Url. C'è differenza infatti tra queste due url:

www.miosito.com/pagina-canonica/

www.miosito.com/pagina-canonica

7. Homepage duplicate. Ad esempio:

www.miosito.com

www.miosito.com/index.html

Utilizzando un emulatore di crawling come quello offerto dalla funzionalità di Site Audit di SEMrush, è possibile venire a conoscenza della presenza di eventuali pagine duplicate non canoniche.

Contenuti duplicati: Analisi del crawling con Site Audit di SEMrush

Come risolvere le duplicazioni interne

Le leve a disposizione dei SEO sono essenzialmente tre.

1. Il link rel="canonical"

2. Il meta noindex

3. Il Redirect 301.

Il link rel="canonical" va inserito nel <head> della pagina e definisce quella che deve essere la pagina canonica che il motore di ricerca deve considera. Quindi tutte le pagine non canoniche dovranno avere nei loro head il link canonical alla pagina canonica.

Attenzione a considerare il rel canonical come un consiglio erogato al motore di ricerca e non come un comando. Infatti, non è detto che il bot segua alla lettera l'istruzione consigliata, soprattutto quando ci si trova di fronte a problemi legati ad un uso errato del canonical o quando si danno al bot segnali contrastanti, come ad esempio:

Inserire più link canonical in una pagina (il bot leggerà soltanto il primo che trova);
Puntare il link canonical a pagine bloccate con il "noindex";
Puntare il link canonical di una categoria di prodotti ad una pagina prodotto (farà deindicizzare l'intera categoria, con conseguente perdita del traffico);
Utilizzarlo per gestire archivi di paginazione (per quello c'è il link rel="prev" rel="next");
Linkare da un menu di navigazione o pagine di categorie una url che presenta il canonical ad un'altra pagina.

Il canonical può anche essere inserito nelle intestazioni HTTP della pagina.

Come utilizzare il canonical nelle intestazioni HTTP della pagina

Il meta noindex, alternativa al rel canonical, inseribile sempre nell'head o nelle intestazioni http, eviterà alla pagina di essere indicizzata.

Infine come ultima possibilità, possiamo utilizzare il Redirect 301 per settare le versioni canoniche soprattutto di pagine di sicurezza (https), pagine senza www o pagine con (o senza) slash finali nelle url.

Abbiamo quindi visto quali sono le problematiche legate alla duplicazione dei contenuti, cosí come delle url interne di un sito web e come gestire tecnicamente queste due problematiche affinché il filtro Panda non ci penalizzi.

Infografica: tutto quello che non piace a Google Panda

Google Panda e i contenuti duplicati: Infografica

E tu sei mai stato vittima di Google Panda?

Quale altra precauzione consideri fondamentale per non correre il rischio di penalizzazioni?

Credit image ( Cloning machine of businessmen): Shutterstock

Contenuti duplicati e tutto ciò che non piace a Google Panda