Crawler: 18 motivi per cui non indicizzano il tuo sito

Elena Terenteva

ott 07, 201611 min di lettura
Crawler: 18 motivi per cui non indicizzano il tuo sito

Guida alla risoluzione dei principali problemi di Web Crawling

Hai lavorato duro sul tuo sito e speri che la ricompensa di tutti i tuoi sforzi sia un buon posizionamento per le chiavi di ricerca più rilevanti per il tuo business. Eppure, nonostante contenuti di qualità, le tue pagine fanno fatica a inserirsi nei primi 10 risultati di ricerca di Google. Se ritieni che il tuo sito meriti di posizionasi più in alto, il problema potrebbe essere dovuto ai crawler e quindi essere legato alla crawlability delle tue pagine.

Crawling e Crawlability: di che cosa si tratta?

I motori di ricerca utilizzano dei bot (i crawler, software che analizzano determinati contenuti) per la raccolta di alcuni parametri relativi alle pagine di un sito. Il processo di raccolta di tali dati è detto crawling. In base a tali dati, i motori di ricerca includono le pagine all'interno del loro indice di ricerca. Questo fa sì che le pagine in questione siano trovate dagli utenti.

La crawlability di un sito web equivale alla sua accessibilità da parte dei bot di ricerca

È di fondamentale importanza che i bot di ricerca siano in grado di trovare le pagine del tuo sito, accedervi e successivamente “leggerle”. 

Accertarti che l’accesso dei bot al tuo sito sia fluido deve essere una tua priorità.

Le informazioni relative agli aspetti di crawlability che si trovano sul web sono frammentarie e a volte contraddittorie. Ecco perché abbiamo ritenuto opportuno elencarle in un documento unico, che riporti tutte le ragioni per cui il tuo sito web potrebbe non essere compatibile con i crawler (e quindi risultare crawler-unfriendly).

Tali questioni vanno inoltre suddivise in due categorie:

  • quelle che puoi risolvere autonomamente,

  • quelle per le quali occorre coinvolgere uno sviluppatore o un amministratore di sistema a cui delegare la risoluzione del problema.

Tutti noi abbiamo ovviamente un background di competenze diverse, per questo quest’ultima categoria va considerata con cautela.

Cosa si intende per "risoluzione autonoma"?

Che sei in grado di gestire il codice e i file di root delle pagine del tuo sito per renderlo finalmente accessibile ai crawler dei motori di ricerca. Devi anche possedere nozioni di base di programmazione (per modificare o sostituire una parte di codice nel posto e nel modo giusto).

Cosa si intende per "delega a un esperto"?

In questo caso sono necessarie competenze di amministrazione server e/o sviluppo web per facilitare il crawling del tuo sito da parte dei bot.

Quando il Crawler è bloccato da meta tag o robots.txt (risoluzione autonoma)

Esistono numerosi comandi bot che impediscono il crawling della pagina. È opportuno notare che non è un errore avere questi parametri all'interno del proprio file robots.txt: se usati in modo corretto e adeguato, tali parametri contribuiranno ad aumentare il crawl budget e forniranno ai bot la giusta direzione da seguire per effettuare il crawling delle pagine.

18 Motivi per cui il tuo sito non è crawler-friendly

1. Blocchi la pagina dall'indicizzazione tramite metatag robot

Se compi questa operazione, il bot di ricerca non inizia neanche a guardare il contenuto della tua pagina e passa direttamente alla pagina successiva.

Questa questione può essere individuata verificando se il codice della tua pagina contiene la seguente stringa:

<meta name="robots" content="noindex" />

In questo caso il crawler provvede all'indicizzazione del contenuto della tua pagina ma non segue i link. Esistono due tipi di direttive nofollow:

  • per l'intera pagina. Verifica se il codice della pagina contiene la stringa:

<meta name="robots" content="nofollow"> 

la sua presenza indica che il crawler non riesce a seguire nessun link sulla pagina.

  • per un link singolo. La stringa di codice in questo caso è la seguente:

<a href="pagename.html" rel="nofollow"/>

3. Blocchi le pagine dall'indicizzazione tramite robots.txt

Robots.txt è il primo file del tuo sito che i crawler considerano. La cosa più antipatica che può capitarti di trovare in questo caso è la seguente:

User-agent: * 
Disallow: /

Questo codice significa che il crawling è bloccato per tutte le pagine del tuo sito.

Può accadere che l’indicizzazione sia bloccata solo per talune pagine o sezioni del sito, ad esempio:

User-agent: *
Disallow: /prodotti/

In questo caso, sarà bloccata la possibilità di indicizzare ogni pagina della sottocartella Prodotti e di conseguenza nessuna delle descrizioni dei tuoi prodotti sarà visibile in Google.

I link rotti o broken links costituiscono sempre una cattiva esperienza per gli utenti, ma lo sono anche per i crawler. Ogni pagina che il bot di ricerca indicizza (o tenta di indicizzare) è una spesa in termini di crawl budget. Tenendo in considerazione questo aspetto, se il tuo sito ha numerosi link rotti il bot occuperà tutto il suo tempo a indicizzarli e non arriverà mai a pagine pertinenti e di qualità.

Il report sugli errori di crawling della Google Search Console o la verifica dei link rotti fornita dallo strumento Site Audit di SEMrush ti aiuterà a individuare questo tipo di problemi e migliorare la crawlability del tuo sito.

4. Errori di URL

Un errore di URL è di norma dovuto alla presenza di un errore di battitura o un refuso nella URL che inserisci nella tua pagina (link a testo, link a immagine, link a modulo). Verifica che tutti i link siano digitati correttamente per non inimicarti i crawler.

5. URL datate

Se di recente hai sperimentato una migrazione di sito web, una cancellazione in massa o una modifica strutturale della URL, è buona norma verificare attentamente che in nessuna pagina del tuo sito vi siano link a URL vecchie o che sono state cancellate.

6. Pagine con accesso negato

Se nel tuo sito vi sono numerose pagine che visualizzano, ad esempio, un codice di stato 403, è possibile che queste pagine siano accessibili solo a utenti registrati. Contrassegna questi link come link nofollow affinché non incidano sul tuo crawl budget.

7. Errori del server

Un numero elevato di errori di tipo 5xx (ad esempio, errori 502) può segnalare la presenza di problemi che hanno a che vedere con il server. Per risolverli, fornisci un elenco di pagine con gli errori rilevati al responsabile dello sviluppo e della manutenzione del sito web. Egli si occuperà di rimuovere i bug o correggerà le questioni legate alla configurazione del sito che sono la causa degli errori di server.

8. Capacità limitata del server

Se il tuo server è sovraccarico, può smettere di rispondere alle richieste di utenti e bot. Quando una tale circostanza si verifica, i tuoi visitatori ricevono il messaggio di “Connection timed out” (tempo per la connessione esaurito). Come puoi immaginare, questa circostanza rende il tuo sito decisamente crawler-unfriendly! Questo problema può essere risolto solamente dall'addetto alla manutenzione del sito web, che valuta se e quanto si debba incrementare la capacità del server.

9. Errata configurazione del web server

La questione in oggetto è abbastanza complessa. Il sito può essere perfettamente visibile a occhio umano, tuttavia continuare a fornire un messaggio di errore, per cui le pagine non sono disponibili per il crawling. Ciò avviene, ad esempio, a causa di una specifica configurazione del server: alcune applicazioni firewall per web (ad esempio, Apache mod_security) bloccano il bot di Google e altri bot di ricerca di default. In sintesi, questo problema e tutti gli aspetti a esso correlati devono essere risolti da uno specialista.

Per approfondire: Vuoi sapere come vedono i bot il tuo sito? In questo post trovi molte indicazioni utili:  Visual SEO Studio tool: Introduzione alla SEO tecnica.

Errori nella sitemap (rilevazione autonoma, risoluzione con l'intervento di un esperto)

La sitemap, insieme al file robots.txt, è il primo elemento considerato dai crawler. Una sitemap corretta suggerisce loro il modo in cui desideri che il tuo sito sia indicizzato. Vediamo quali elementi potrebbero non funzionare quando il bot di ricerca inizia a considerare la tua o le tue sitemap.

10. Errori di format

Esistono diversi tipi di errori di formato, ad esempio URL non valida o tag mancanti (per un elenco completo di ciascun errore, e le relative soluzioni, puoi dare un’occhiata qui).

Potresti anche aver scoperto (in primissima battuta) che il file sitemap è bloccato da un robots.txt. Ciò significa che i bot potrebbero non avere accesso al contenuto della sitemap del tuo sito.

11. Pagine sbagliate nella sitemap

Passiamo ora al contenuto. Anche se non sei un programmatore web, puoi stimare la pertinenza delle URL nella sitemap. Analizza attentamente le URL della tua sitemap e assicurati che ciascuna di esse sia pertinente, aggiornata e corretta (nessun errore ortografico o refuso). Se il crawl budget è limitato e i bot non riescono ad accedere all’intero del sito, le indicazioni della sitemap possono aiutarli a indicizzare per prime le pagine più importanti.

Non fuorviare i crawler con istruzioni controverse: assicurati che l’indicizzazione delle URL nella tua sitemap non sia bloccata da metadirettive o da file robots.txt.

Questioni di architettura del sito (delega a un esperto)

I problemi di crawling che rientrano in questa categoria sono i più difficili da risolvere. Ecco perché ti suggerisco di eseguire tutti i passaggi precedenti prima di cimentarti con una delle seguenti questioni.

I problemi relativi all' architettura del sito possono disorientare o bloccare il crawler del tuo sito web. Vediamoli nel dettaglio.

Nell'ambito della struttura di un sito web ottimizzato in modo corretto, tutte le pagine formano una catena indissolubile, tale da consentire al crawler di raggiungere con facilità ciascuna pagina.

In un sito non ottimizzato alcune pagine vengono perse di vista dal bot. Ciò può essere dovuto a diverse ragioni, che puoi facilmente individuare e categorizzare utilizzando lo strumento Site Audit di SEMrush:

  • Non vi sono link da nessun'altra pagina del sito alla pagina che vuoi posizionare. In questo caso, tale pagina non ha possibilità di essere trovata e indicizzata dai bot di ricerca.

  • Troppi passaggi tra la pagina principale e la pagina che vuoi posizionare. È pratica consolidata che non intercorrano più di 4 link, altrimenti vi è il rischio che il bot non raggiunga la pagina.

  • Oltre 3000 link attivi in una pagina (troppo lavoro per il crawler).

  • I link sono nascosti in elementi del sito non indicizzabili: moduli richiesti, frame, plugin (Java e Flash in primis).

In gran parte dei casi, il problema dei link interni non può essere risolto di punto in bianco. Occorre una dettagliata revisione della struttura del sito web in collaborazione con gli sviluppatori.

13. Reindirizzamenti sbagliati

I reindirizzamenti sono necessari per indirizzare gli utenti verso una pagina più pertinente (o meglio, verso una pagina che il proprietario del sito ritiene rilevante). Ecco cosa può sfuggirti quando lavori con i reindirizzamenti:

  • Reindirizzamento temporaneo anziché provvisorio: utilizzare i reindirizzamenti 302 o 307 costituisce un segnale per i crawler di tornare ripetutamente sulla pagina, spendendo il crawl budget. Pertanto, se comprendi che la pagina in formato originale non ha più bisogno di essere indicizzata, utilizza il reindirizzamento 301 (permanente) per tale pagina.

  • Loop di reindirizzamento: Può accadere che due pagine si reindirizzino a vicenda. In questo modo, il bot resta intrappolato in un loop e l’intero crawl budget viene sprecato. Effettua un controllo approfondito ed elimina eventuali reindirizzamenti reciproci.

14. Velocità di caricamento bassa

Maggiore è la velocità di caricamento delle tue pagine, più rapidamente il crawler riuscirà ad analizzarle. Ogni frazione di secondo conta: il posizionamento di un sito web nelle SERP, infatti, è correlato alla sua velocità di caricamento.

Utilizza Google Pagespeed Insights per verificare se il tuo sito web è sufficientemente veloce. Se la velocità di caricamento scoraggia gli utenti, la causa potrebbe essere dovuta a numerosi fattori:

  • Fattori lato server: il tuo sito web può essere lento per un motivo molto semplice - l'attuale larghezza di banda del canale non è più sufficiente. Puoi controllare la larghezza di banda nella descrizione del tuo piano tariffario.

  • Fattori front-end: una delle problematiche più importanti riguarda il codice non ottimizzato. Se il codice contiene script e plug-in voluminosi, il tuo sito è a rischio. Inoltre, non dimenticare di verificare con cadenza regolare che le tue immagini, i tuoi video e altro contenuto simile siano ottimizzati e che non rallentino invece la velocità di caricamento della pagina.

15. Duplicati di pagine a causa di una architettura del sito carente

I contenuti duplicati rappresentano la questione SEO più frequente, riscontrata nel 50% dei siti secondo lo Studio SEMrush: gli 11 problemi più comuni di un sito, legati alla SEO. Si tratta di una delle principali ragioni per cui esaurisci il tuo crawl budget. Google dedica un tempo limitato a ciascun sito web, pertanto non è opportuno sprecare questo tempo indicizzando lo stesso contenuto. Un altro problema consiste nel fatto che i crawler non sanno quale sia la copia di contenuto più affidabile e possono dare priorità alle pagine sbagliate, se non si usano i tag canonicals per chiarire la situazione. Per risolvere tale questione, occorre individuare i duplicati delle pagine ed evitare che siano oggetto di crawling in uno dei modi seguenti:

  • cancellare i duplicati di pagine,

  • impostare i parametri necessari in robots.txt,

  • impostare i parametri necessari nei meta tag,

  • impostare un reindirizzamento di tipo 301,

  • utilizzare rel=canonical.

16. Uso JS e CSS

Già nel 2015 Google affermava ufficialmente: “Finché non stai bloccando Googlebot dall'eseguire il crawling dei file JavaScript o CSS, siamo generalmente in grado di interpretare le tue pagine web. Ciò non è tuttavia pertinente per altri motori di ricerca (Yahoo, Bing, ecc). Inoltre, “generalmente” significa che in alcuni casi non viene garantita un’indicizzazione corretta.

Tecnologie datate (delega a un esperto)

17. Contenuto Flash

L’utilizzo di contenuti in Flash potrebbe prendere una brutta piega sia per quanto riguarda l' esperienza utente (i file Flash non sono supportati da alcuni dispositivi mobili), sia per la SEO. È infatti molto difficile che un contenuto testuale o un link all’interno di un elemento Flash venga indicizzato dai crawler.

Pertanto, ti suggerisco semplicemente di non utilizzare né Flash, né i frame HTML all’interno del tuo sito web.

18. Frame HTML

La presenza di frame nel tuo sito può essere sia positiva che negativa. È una cosa buona perché probabilmente indica che il tuo sito è sufficientemente maturo. È una cosa negativa perché i frame HTML sono estremamente datati, mal indicizzati e vanno sostituiti con una soluzione più aggiornata nel più breve tempo possibile.

Conclusioni: Delega il tran tran quotidiano e concentrati sull'azione

Non sono necessariamente le keyword sbagliate o le questioni legate alla qualità dei contenuti a farti restare fuori dal radar di Google. Una pagina perfettamente ottimizzata non costituisce garanzia del fatto che riuscirai a posizionarti nei primi risultati di ricerca, se il contenuto non può essere trasmesso al motore a causa di problemi di crawlability.

Per individuare cosa, all’interno del tuo sito, sta bloccando o disorientando i crawler di Google, devi rivedere il tuo dominio attentamente dall’inizio alla fine. Farlo manualmente è un’operazione che richiede molto impegno. Ecco perché dovresti affidare lo svolgimento di compiti di routine a strumenti adeguati. Gran parte delle più comuni soluzioni di site audit ti aiutano a individuare, categorizzare e definire le questioni in termini di priorità, consentendoti di procedere all'azione subito dopo aver ricevuto il report.

Inoltre, molti strumenti consentono di salvare lo storico dei precedenti audit, offrendoti un quadro di insieme della performance tecnica del tuo sito web ben tempo.

Vuoi approfondire la questione?

Guarda il webinar con l'esperto SEO Filippo Sogus: si parla di Crawl budget:

Youtube video thumbnail

Ci sono altre questioni che ritieni fondamentali per facilitare l’accesso dei crawler al tuo sito?

Utilizzi strumenti che ti aiutano a ottimizzare e risolvere tempestivamente i problemi di crawling delle tue pagine? Inviaci un commento con i tuoi suggerimenti!

Verifica la crawlability del tuo sito con Site Audit di SEMrush

Condividi
Author Photo
Elena Terenteva, Product Marketing Manager at Semrush. Elena has eight years public relations and journalism experience, working as a broadcasting journalist, PR/Content manager for IT and finance companies. Bookworm, poker player, good swimmer.