La gestione dei contenuti duplicati negli Ecommerce

Gaetano Romeo

mar 27, 20196 min di lettura
La gestione dei contenuti duplicati negli Ecommerce

Abbiamo più volte discusso sul concetto di quante SEO possano esistere, un filone quasi da letteratura che da anni ormai appassiona gli addetti ai lavori e che arriva a formare delle vere e proprie scuole di pensiero. Io ho una visione che non sposa nessuna delle scuole, ovvero credo che di SEO ne esista solo una, ma a seconda del caso, della nicchia di mercato, dalla forza dei competitor e da centinaia di altri fattori possibili, questa materia possa avere sfaccettature diverse e mutare pelle come un vero e proprio camaleonte.

Oggi, e nei prossimi mesi, voglio affrontare un tema rovente, sempre attualissimo: come fare SEO per un e-commerce. Partirò da un concetto basico che ho in parte espresso precedentemente: di SEO ne abbiamo una e quindi eviterò di far presente alcuni temi e alcuni fattori molto noti a chi fa SEO e cercherò più che altro di estrapolare quei 4-5 punti che ritengo di fondamentale importanza per l'ottimizzazione di un negozio online. L'articolo odierno si concentrerà esclusivamente su un problema molto importante per un e-commerce ovvero come risolvere l'annosa questione dei contenuti duplicati.

Gestione dei contenuti duplicati in un E-commerce

Come evitare contenuti duplicati nelle pagine di un ecommerce

La questione contenuti duplicati e/o dei contenuti di scarsa qualità sta diventando sempre più importante, poiché i grandi motori di ricerca, quali Google, Yahoo e Bing, tendono sempre di più a premiare chi rispetta le loro linee guida. Anche per gli e-commerce, a differenza di quanto si possa pensare, i contenuti duplicati spesso causano penalizzazioni importanti che incidono direttamente in maniera massiccia e negativa sul fatturato aziendale, in particolar modo:

Alcuni esempi di link di affiliate che producono thin content includono pagine con link di affiliazione di prodotto su cui le descrizioni e le recensioni dei prodotti sono copiate direttamente dal produttore originale senza alcun contenuto originale o valore aggiunto.

2. Duplicazioni interne al sito

Per com’è strutturato un e-commerce, le possibilità che vi siano contenuti duplicati sono veramente molto elevate. I problemi maggiori spesso vengono causati dai CMS lato codice, andiamo a vedere un po’ di casistiche insieme.

Contenuti duplicati: come risolvere?

Come gestire i contenuti duplicati di un ecommerce

1. Il non uso del Canonical

L’utilizzo del tag canonical aiuta i motori di ricerca a capire che esiste una sola versione canonica dell'URL della pagina che deve essere indicizzata, indipendentemente dalle versioni di URL che vengono visualizzate nel browser, collegate da siti web esterni.

Attenzione: il Canonical è solo un consiglio che si dà a Google, non un ordine, quindi in quanto tale Google potrebbe decidere di interpretare come meglio crede tale consiglio.

Gli URL canonici sono di fondamentale importanza nel caso di URL in cui il codice di tracciamento (di affiliazione, della fonte dei social media, ecc.) venga aggiunto nella parte finale di un URL sul sito (es. -? a_aid =,? utm_source, ecc.).

Tale tag inoltre è molto importante per favorire l'indicizzazione degli URL delle pagine di categorie su un e-commerce nei casi in cui i parametri di ordinamento, filtraggio e funzionalità vengano aggiunti alla fine degli URL della categoria di base per produrre diversi ordini di prodotti in una pagina di categoria (ad esempio -? Dir = asc,? price = 10-, ecc.).

Garantire che l'URL canonico (nel <head> del codice sorgente) corrisponda all'URL della categoria di base impedirà ai motori di ricerca di indicizzare questi URL duplicati.

2. Problemi ID di sessione

Molti e-commerce utilizzano ID di sessione in URL (ad esempio -? Sid =) per tracciare il comportamento dell'utente. Il problema per i motori di ricerca è che questo crea un duplicato dell'URL principale della pagina a cui viene applicato l'ID di sessione. Un approccio comune per risolvere questo problema consiste nell'utilizzare i cookie per tenere traccia delle sessioni utente, invece di aggiungere il codice ID di sessione agli URL. Tuttavia, se gli ID di sessione vengono aggiunti agli URL, è facile correggerli canonicalizzando le varie URL.

Un approccio di backup potrebbe essere quello di impostare URL con ID sessione su noindex, ma, tale pratica limiterebbe il potenziale di equità di collegamento a livello di pagina nel caso in cui qualcuno colleghi l'URL di una pagina che include l'ID di sessione. Potrebbe anche essere utile disabilitare la scansione degli URL degli ID di sessione tramite il file /robots.txt purché il sistema CMS non produca ID di sessione per i robot di ricerca (che potrebbero causare gravi problemi di crawlability). Esempio: User-agent: * Disallow: *?sid=*

3. Pagine carrello

Quando gli utenti aggiungono prodotti al carrello del tuo e-commerce e lo visualizzano, la maggior parte dei sistemi CMS implementa strutture URL specifiche per l'esperienza carrello. La prima cosa importante da fare è rendersi conto che questi non sono i tipi di pagine che i motori di ricerca desiderano indicizzare, quindi identificarle e impostarle su "noindex, nofollow" tramite il tag meta robots o tag X-robots (e anche non consentire la scansione di essi tramite il file /robots.txt) aiuterà a impedire ai motori di ricerca di indicizzare questo contenuto di bassa qualità e inutile per il navigatore.

4. Risultati della ricerca interna

Le pagine dei risultati della ricerca interna vengono visualizzate quando qualcuno effettua una ricerca sull'e-commerce utilizzando la funzione di ricerca interna del sito.

Non siamo in presenza di contenuti unici, ma solo di frammenti di contenuti riadattati da altre pagine del tuo e-commerce. Matt Cutts, noto ex ingegnere di Google, ha chiaramente affermato che Google non ama che i navigatori vengano rimandati verso i filtri di ricerca quando effettuano una ricerca su Google.

Al contrario, lo scopo di Google sarebbe quello di far atterrare i navigatori su pagine realmente esistenti (pagine di prodotto, pagine di categorie, pagine di siti statici, post di blog e articoli). Questo è un problema molto comune per gli e-commerce. Molti sistemi CMS non impostano le pagine dei risultati di ricerca interne su "noindex, follow" come impostazione predefinita, quindi uno sviluppatore dovrà applicare questa regola per risolvere questo problema.

Si consiglia inoltre di impedire ai robot di ricerca di eseguire la scansione delle pagine dei risultati di ricerca interne nel file /robots.txt dopo che tutte le pagine dei risultati di ricerca interne sono state rimosse dall'indice o prima che una qualsiasi delle pagine venga indicizzata. È una soluzione semplice ma di fondamentale importanza per evitare di essere penalizzati dall'algoritmo Panda di Google qualora dovesse trovare troppi risultati di ricerca interni nell'indice di Google.

5. Path di URL duplicate

Il modo in cui i sistemi CMS gestiscono le strutture URL quando i prodotti sono collocati in più categorie a livello di tassonomia possono spesso causare danni a volte irreparabili. Ad esempio, se un prodotto viene inserito sia nella categoria A che nella categoria B e se le directory di categoria vengono utilizzate all'interno della struttura URL delle pagine prodotto, il CMS potrebbe potenzialmente creare due URL diverse per lo stesso prodotto. Come si può immaginare, questo può portare a problemi di contenuto duplicati devastanti per le pagine dei prodotti, che di solito sono le pagine di conversione più alte su un sito di e-commerce.

L'approccio comune per risolvere questo problema è utilizzare le URL della pagina prodotto di livello root (sfortunatamente ciò rimuove i vantaggi della struttura dell'URL a livello di categoria ricchi di parole chiave e limita anche la tracciabilità nel software Analytics).

6. URL WWW e non WWW e URL maiuscoli e minuscoli

È fondamentale scegliere una versione di URL per ogni pagina del sito. Per questo motivo bisogna utilizzare redirect 301 per reindirizzare la versione non preferita alla versione preferita, tale soluzione è quella consigliata per evitare che vengano create URL duplicati

Suggerimento: Google consente inoltre ai webmaster di configurare la versione dei domini www e non www all'interno di Search Console e di impostare il dominio preferito.  

Gli URL in maiuscolo e minuscolo devono essere gestiti nello stesso modo. Se entrambi vengono visualizzati separatamente, i motori di ricerca possono considerarli diversi. Vanno obbligatoriamente reindirizzati verso la versione preferita.

7. Chiusura e non chiusura dello slash

Analogamente agli URL www e non www, i motori di ricerca considerano gli URL che eseguono il rendering sia con una barra finale che senza come URL differenti. Ad esempio, gli URL duplicati vengono creati quando URL come / pagina / e /pagina/index.html, o / pagina e /pagina.html, restituiscono lo stesso contenuto. È particolarmente problematico quando / pagina e / pagina / mostrano lo stesso contenuto poiché, tecnicamente parlando, queste due pagine non sono nemmeno nella stessa directory. L'approccio comune per risolvere questo problema è utilizzare il canonical o meglio ancora un redirect 301 da una versione all'altra.

8. Case Sentitive

Gli URL sono sensibili al case sentitive? In molti casi, sì. Alcuni server (come Microsoft / IIS) non avranno problemi, ma altri (come Linus / UNIX) potrebbero fare una distinzione tra un carattere maiuscolo ed uno minuscolo in una URL. Per questo motivo sarebbe una buona pratica verificare che nel tuo e-commerce non si verifichi questo problema.

Questi sono solo alcuni dei casi più eclatanti per quanto riguarda i problemi con contenuti duplicati su un e-commerce. 

Tu cosa ne pensi?

Fammelo sapere nei commenti :)

Condividi
Author Photo
Chief Operating Officer Bruce Clay Europe Gaetano Romeo è una figura di spicco del marketing digitale e della consulenza aziendale. Grazie alla sua vasta esperienza e competenza nel settore, si è guadagnato una reputazione di alto livello come esperto del digitale. Contributor di Search Engine Land, docente IED, Ninja, direttore della collana Digital Generation del gruppo Maggioli e brand ambassador di Whitepress Europa. Oggi è Chief Operating Officer di Bruce Clay Europe.