La copertura indice o Index Coverage è un’area della Search Console di Google che serve a inquadrare il numero di pagine che possono essere mostrate nei risultati di ricerca. In particolare fornisce informazioni sulle pagine sottoposte a scansione da parte di GoogleBot - lo spider del motore di ricerca - evidenziando quali di queste sono presenti in indice e quali no.
Rispetto alla versione precedente della Search console, quella attuale descrive molti più aspetti della copertura indice e in particolare ci informa con dettaglio maggiore sugli errori di scansione, sugli avvisi, sulle caratteristiche delle pagine valide e sui motivi per i quali una o più risorse vengono escluse dall’indice. Si tratta di informazioni generate automaticamente (per carità), ma possono rivelarsi preziose per valutare la SEO di un sito web e far fronte a problematiche che magari ancora non ti sono note.
Ho deciso di scrivere questo articolo perché occupandomi di valutazioni SEO a livello professionale, ho riscontrato nel tempo una scarsa considerazione della copertura indice da parte di molte persone che si sono rivolte a me per analisi o consulenze SEO. Certamente ho l’occhio allenato, ma molti dei clienti che ho seguito avrebbero potuto cogliere con largo anticipo i problemi da cui erano affetti i loro siti web se solo avessero guardato con un minimo di attenzione la copertura indice. Proviamo dunque a inquadrarne le voci principali.
Errore di copertura
L’errore di copertura (rosso) viene segnalato principalmente in due casi, il primo riguarda problemi nella compilazione della sitemap, il secondo ha a che vedere con gli errori server o le pagine soft 404. Ecco i casi più frequenti:
- L’URL inviato (da sitemap) contiene un tag noindex
- L’URL inviato presenta un problema di scansione (generico)
- URL inviato non trovato (404)
- Errore Soft 404
- Errore del server (5xx)
Diciamo subito che le sitemap NON DEVONO contenere pagine con il meta robots in Noindex, NON DEVONO contenere percorsi reindirizzati, NON DEVONO contenere percorsi interrotti (404) e NON DEVONO contenere pagine con tag Canonical che punta altrove. In casi come questi abbiamo un’evidente spreco delle risorse di scansione con ricadute anche gravi sulla visibilità del sito web nei risultati di ricerca.
Oltre queste, la copertura indice segnala come errori, le pagine soft 404, che sono contenuti sostanzialmente vuoti, con o senza il layout del sito web. Sono più gravi delle normali pagine 404, perché restituiscono un codice browser 200, quello cioè delle pagine correttamente raggiungibili, tuttavia sono molto povere o proprio vuote, quindi di bassa qualità. Semplicemente non devono esistere.
L’ultimo problema tra quelli segnalati come errore riguarda i percorsi segnalati come errori server. In alcuni casi si tratta di situazioni temporanee, ma è sempre il caso di valutarli attentamente, quindi non sottovalutarli.
Pagine valide con avvisi
Le valide con avvisi sono spesso pagine che di per sé non avrebbero problemi di indicizzazione tali da decretarne l’esclusione, ma che comunque richiedono attenzione per uno o più comportamenti ritenuti anomali. Ad esempio tra queste segnalazioni puoi trovare pagine correttamente indicizzate, quindi visibili nei risultati di ricerca, ma che tuttavia risultano bloccate mediante file Robots.txt.
Tale situazione si verifica quanto una pagina web viene prima messa online normalmente e poi - in seguito - bloccata mediante file robots. In questi casi è opportuno ricordare che il robots.txt non serve ad escludere una risorsa dall’indice, ma a fare in modo che non venga seguita dagli spider di uno o più motori di ricerca. Sono cose molto diverse che spesso vengono confuse.
Se dunque hai interesse ad escludere dall’indice una o più pagine, devi prima inserirvi un meta tag robots impostato in Noindex, poi - a deindicizzazione avvenuta - puoi bloccare le risorse con il robots.txt. Beninteso, se una pagina non serve preferisco rimuoverla e (in caso) reindirizzarla, ma a ciascuno il suo.
Pagine Valide
Un grosso problema SEO è considerare che le pagine valide siano tutte giuste a prescindere. Anche molti colleghi tralasciano di studiare le pagine valide in copertura indice, perché appunto “valide”, ma è davvero opportuno che siano tutte visibili su Google?
La copertura indice suddivide le pagine valide in due classi, quelle inviate tramite la sitemap e quelle pure indicizzate, ma non inviate. Questa prima distinzione dovrebbe farti già suonare in testa un campanello d’allarme. Dal mio punto di vista, tutto ciò che vorremmo si posizionasse dovrebbe essere listato in sitemap, mentre ciò che NON vorremmo si posizionasse, non solo andrebbe escluso dalle sitemap, ma non dovrebbe nemmeno essere raggiungibile dal sito web, per lo meno non attraverso percorsi espliciti con href nel sorgente.
Le pagine “valide” vanno studiate con attenzione, perché possono aiutarci a capire se abbiamo compilato opportunamente le sitemap o se invece abbiamo lasciato che listassero pagine prive di alcuna rilevanza per il posizionamento. Di contro, studiando le pagine valide che non vengono inviate tramite sitemap, può capitarci di trovare percorsi che rimandano a pagine centrali per il modello di business, che tuttavia per un motivo o per un altro non si trovano in sitemap. Certo, se gestisci un sito web di 600 pagine è difficile incorrere in problemi di questa natura, ma se ne gestisci uno con 6 milioni di pagine, la considerazione è tutt’altro che banale.
Pagine escluse
Le pagine escluse dall’indice sono quelle che pur essendo periodicamente sottoposte a scansione da Googlebot, non vengono listate nei risultati organici del motore di ricerca. Sembra niente, ma è qui che spesso troviamo i problemi più seri lato SEO.
I casi più frequenti di esclusione sono i seguenti:
- Esclusa in base al tag Noindex
- Pagina con reindirizzamento
- Pagina alternativa con tag Canonical appropriato
- Pagina scansionata, ma attualmente non indicizzata
- Bloccata da Robots.txt
- Rilevata, ma attualmente non indicizzata
- Anomalia durante la scansione
- Pagina duplicata, Google ha scelto una pagina canonica diversa da quella specificata
- Pagina duplicata senza URL canonico selezionato dall’utente
- Soft 404
Significa che:
- Le pagine in Noindex spariscono dall’indice, ma possono essere scansionate ancora (per decenni) quindi vanno gestite;
- Sarebbe meglio tenere direttamente in pagina i percorsi finali e non quelli che reindirizzano;
- Sarebbe meglio non avere sul sito web troppi percorsi espliciti che puntano a pagine non canoniche;
- Sarebbe meglio non avere pagine povere o molto simili tra loro;
- Sarebbe meglio che le pagine avessero sempre un canonical, magari autoreferenziale;
Nella lista superiore puoi trovare voci di non facile interpretazione o che lasciano quantomeno perplessi. Ad esempio, quando leggi Rilevata, ma attualmente non indicizzata, oppure Anomalia durante la scansione, si fa riferimento a pagine che andrebbero inserite in indice, ma che per motivi non specificati non ci entrano. E quali sono questi motivi?
Conclusioni
In questi casi sei tu a dover fare inferenza e indagare il motivo del mancato inserimento in indice. È qui che spesso entra in gioco un consulente SEO o chiunque abbia già esperienza operativa con la Search Console. Spesso la partita si vince o si perde sulle decisioni prese (o non prese) a partire da queste voci della copertura indice.
C’è da dire che molto spesso il concetto di Crawl budget viene frainteso. La quantità di risorse di scansione che Google è disposto ad elargire al tuo progetto web è commisurata alla sua rilevanza rispetto ad un certo tema ed è quasi sempre molto (molto) più ampia rispetto a quello che credi. Ho visto siti web con valori di pagine escluse elevatissimi, ottenere comunque grandi risultati di posizionamento, quindi non è il caso di correre ai ripari per ogni URL che viene escluso… certo, nemmeno ignorare del tutto queste cose è una scelta saggia.
Come ultimo suggerimento, affiancherei sempre alla valutazione della copertura indice una scansione del sito web con un crawler stand alone o web based come lo strumento Site Audit di SEMrush. Questo tool presente nella Suite è davvero molto utile perché una volta impostato esegue periodicamente una scansione sulle pagine del sito web e isola automaticamente tutti gli errori e le altre cose a cui fare attenzione.
Perché uno strumento è utile, ma due sono meglio.