Che cosa sono la crawlability e l'indexability di un sito web?

Elena Terenteva

Dec 13, 20187 min read
la crawlability e l'indexability

Dimmi, qual è la prima cosa che ti viene in mente quando pensi di posizionare un sito web?

Contenuti? O forse backlink?

Lo ammetto, entrambi sono fattori cruciali per il posizionamento di un sito web nei risultati di ricerca. Ma non sono gli unici. In effetti, altri due fattori giocano un ruolo significativo nella SEO: la crawlability e l’indexability. Eppure, la maggior parte dei proprietari di siti web non ne ha mai sentito parlare.

Anche piccoli problemi di indicizzazione o di crawlability potrebbero causare la perdita di posizioni del tuo sito. E questo indipendentemente dal grande contenuto che hai creato o da quanti backlink hai ottenuto.

Cosa sono la crawlability e l’indexability?

Per comprendere questi termini, iniziamo dando un'occhiata a come i motori di ricerca scoprono e indicizzano le pagine. Per conoscere qualsiasi nuova pagina (o una pagina aggiornata) usano ciò che è noto come web crawler, bot il cui scopo è seguire i collegamenti sul web con un unico obiettivo in mente:

Trovare e indicizzare nuovi contenuti web.

Come spiega Google:

I crawler guardano le pagine web e seguono i link su quelle pagine, proprio come faresti tu se stessi navigando sul Web. Passano da link a link e riportano i dati su tali pagine web ai server di Google.

Matt Cutts, ex Google, ha pubblicato un video interessante che spiega in dettaglio il processo. Puoi guardarlo qui sotto:

Youtube video thumbnail

In breve, entrambi questi termini si riferiscono alla capacità di un motore di ricerca di accedere e indicizzare le pagine su un sito web per aggiungerle al suo indice.

La crawlability descrive la capacità del motore di ricerca di accedere ad un sito ed eseguire la scansione del contenuto di una pagina. Se un sito non presenta problemi di scansione, allora i web crawler possono accedere a tutti i suoi contenuti facilmente, seguendo i collegamenti tra le pagine. Tuttavia, collegamenti interrotti o vicoli ciechi potrebbero causare problemi di crawlability - ovvero l'incapacità del motore di ricerca di accedere a contenuti specifici su un sito.

L'indexability, invece, si riferisce alla capacità del motore di ricerca di analizzare e aggiungere una pagina al suo indice. Anche se Google potrebbe eseguire la scansione di un sito, potrebbe non essere in grado di indicizzare tutte le sue pagine, in genere a causa di problemi di indicizzazione.

Cosa può causare problemi di crawlability e indexability?

1. Struttura del sito

La struttura informativa del sito web svolge un ruolo cruciale nella sua crawlability o capacità di essere scansionato. Ad esempio, se il tuo sito presenta pagine che non sono linkate da nessun'altra parte, i web crawler potrebbero avere difficoltà ad accedervi. Ovviamente, potrebbero comunque trovare quelle pagine tramite link esterni, a condizione che qualcuno faccia loro riferimento. Ma nel complesso, una struttura debole potrebbe causare problemi di crawlability.

2. Struttura di link interni

Un web crawler viaggia attraverso il web seguendo link, proprio come faresti tu su qualsiasi sito web. E quindi può trovare solo pagine linkate da altri contenuti. Una buona struttura interna dei link, quindi, consentirà ai crawler di raggiungere rapidamente anche quelle pagine che sono più nascoste sul tuo sito. Una struttura povera, invece, potrebbe inviarli in un vicolo cieco, con la conseguenza che a un crawler mancherebbero alcuni dei tuoi contenuti.

3. Redirect in loop

I redirect delle pagine interrotte fermano un web crawler nelle sue ricerche di pagine, con conseguenti problemi di crawlability.

4. Errori del server

Allo stesso modo, i redirect del server e molti altri problemi relativi al server impediscono ai web crawler di accedere a tutti i tuoi contenuti.

5. Script non supportati e altri fattori tecnologici

I problemi di scansione potrebbero derivare anche dalla tecnologia che utilizzi sul tuo sito. Ad esempio, poiché i crawler non sono in grado di seguire i form, mettere del contenuto dietro a un form comporterà problemi di crawlability. Vari script come Javascript o Ajax possono bloccare i contenuti ai web crawler.

6. Blocco dell'accesso del crawler web

Infine, puoi bloccare deliberatamente l’accesso ai web crawler per non far indicizzare delle pagine sul tuo sito. E ci sono alcune buone ragioni per farlo. Ad esempio, potresti aver creato una pagina a cui vuoi limitare l'accesso pubblico. Per farlo dovresti bloccare l’accesso anche ai motori di ricerca. Tuttavia, è facile bloccare anche altre pagine per errore. Un semplice errore nel codice, ad esempio, potrebbe bloccare l'intera sezione del tuo sito.

La lista completa dei problemi di crawlability puoi trovarla in questo articolo: Crawler: 18 motivi per cui non indicizzano il tuo sito.

Come rendere un sito web facile da scansionare e indicizzare?

Ho già elencato alcuni dei fattori che potrebbero causare problemi di scansione o indicizzazione al tuo sito. E quindi, come primo passo, dovresti assicurarti che non si verifichino.

Ma ci sono anche altre cose che potresti fare per assicurarti che i web crawler possano facilmente accedere e indicizzare le tue pagine.

1. Invia la sitemap a Google

La sitemap è un file di piccole dimensioni che risiede nella cartella principale del tuo dominio. Contiene i collegamenti diretti a ogni pagina del tuo sito, che invia al motore di ricerca tramite la Search Console di Google. La sitemap comunicherà a Google i tuoi contenuti e avviserà di eventuali aggiornamenti che hai apportato.

2. Rafforza i link interni

Abbiamo già parlato di come l'interlinking influisca sulla capacità di scansione. Pertanto, per aumentare le possibilità che il crawler di Google trovi tutti i contenuti del tuo sito, migliora i collegamenti tra le pagine per garantire che tutti i contenuti siano connessi.

3. Aggiorna e aggiungi regolarmente nuovi contenuti

Il contenuto è la parte più importante del tuo sito. Ti aiuta ad attrarre visitatori, a presentare la tua attività e a convertire gli utenti in clienti. Ma i contenuti ti aiutano anche a migliorare la crawlability del tuo sito. Per prima cosa, i web crawler visitano con maggior frequenza quei siti che aggiornano costantemente i loro contenuti. Ciò significa che effettueranno la scansione e indicizzeranno la tua pagina molto più rapidamente.

4. Evita qualsiasi duplicazione di contenuto

Avere contenuti duplicati, pagine che presentano contenuti uguali o molto simili può comportare la perdita di posizioni in serp. Non solo: i contenuti duplicati possono anche ridurre la frequenza con cui i crawler visitano il tuo sito. Quindi, ispeziona e correggi eventuali problemi di contenuto duplicato sul tuo sito.

5. Accelera il tempo di caricamento della pagina

I crawler web in genere hanno solo un tempo limitato da spendere per scansionare e indicizzare un sito. Questo è noto come crawl budget. Sostanzialmente, una volta scaduto il tempo, i crawler lasceranno il tuo sito. Quindi, più velocemente caricano le tue pagine, più un crawler sarà in grado di visitarle prima che finisca il tempo.

Per saperne di più sul crawl budget guarda il webinar che abbiamo realizzato con l'esperto Filippo Sogus:

Youtube video thumbnail

Tool per gestire la crawlability e il processo di indicizzazione

Se tutto quanto detto finora ti sembra intimidatorio, non preoccuparti: esistono strumenti che possono aiutarti a identificare e risolvere i problemi di crawlability e indicizzazione.

Log File Analyzer

Log File Analyzer ti mostrerà come i robot di Google (desktop e mobile) eseguono la scansione del tuo sito, se ci sono errori da correggere e il crawl budget da salvare. Tutto quello che devi fare è caricare il file access.log del tuo sito web e lasciare che lo strumento faccia il suo lavoro.

Un log di accesso è un elenco di tutte le richieste che persone o bot hanno inviato al tuo sito; l'analisi di un file di log ti consente di tracciare e comprendere il comportamento dei crawler bot.

Leggi il nostro manuale su Dove trovare il file di log di accesso.

Site Audit

Site Audit è uno strumento della suite SEMrush che controlla lo stato del tuo sito web. Esegue la scansione del tuo sito per vari errori e problemi, compresi quelli che influiscono sulla crawlability e l’indicizzazione di un sito web.

Strumenti per risolvere problemi di scansione e indicizzazione di un sito

I tool di Google

Google Search Console ti aiuta a monitorare e a mantenere in buono stato il tuo sito su Google. Da qui puoi inviare la tua sitemap e verificare la copertura del tuo sito da parte dei crawler web.

Google PageSpeed Insights ti consente di controllare rapidamente la velocità di caricamento della pagina di un sito web.

Conclusioni

La maggior parte dei webmaster sa che per posizionare un sito web sono necessari contenuti forti e pertinenti e backlink che aumentano l'autorità dei loro siti web. Quello che molti non sanno è che i loro sforzi sono vani se i crawler dei motori di ricerca non possono eseguire la scansione dei loro siti e indicizzarli. Ecco perché, oltre a concentrarti sull'aggiunta e sull'ottimizzazione delle pagine per le parole chiave pertinenti e sulla creazione di link, devi monitorare costantemente se i web crawler possono accedere al tuo sito e segnalare ciò che trovano al motore di ricerca.

Vuoi qualche consiglio per sfruttare i file di access log? Puoi leggere il post Azioni SEO sottovalutate che invece fanno la differenza.

Che cosa ne pensi del nostro nuovo tool Log File Analyzer?

Facci sapere la tua opinione! Aspettiamo i tuoi commenti.

Share
Author Photo
Elena Terenteva, Product Marketing Manager at Semrush. Elena has eight years public relations and journalism experience, working as a broadcasting journalist, PR/Content manager for IT and finance companies. Bookworm, poker player, good swimmer.