Crawl Budget: come ottimizzarlo in 10 punti

Uno dei tanti argomenti che mi affascina di più della SEO è il Crawl Budget, un fattore molto importante per alcuni siti, molto tecnico e della quale non si parla spesso. In questo articolo cercherò di spiegarti nel modo più semplice possibile di cosa si tratta e come poterlo ottimizzare al meglio.

La definizione di Crawl Budget

Google definisce il Crawl Budget come "il numero di URL che Google BOT può e desidera sottoporre a scansione". Esso deriva dal Crawl Rate Limit, ossia il limite massimo di frequenza di scansione e il Crawl Demand, ossia la richiesta di scansione del dominio/URL data dalla sua popolarità e dalla mancanza di freschezza dei contenuti (in pratica, da quanto tempo non aggiorniamo quel contenuto/dominio).

Nonostante non se ne parli con grande frequenza, è un parametro molto importante che nel tempo ha avuto sempre più peso, soprattutto per determinati siti, come vedremo. Possiamo dire che esprime un po' lo stato di salute di quel dominio e ci permette di capire qual è la frequenza e la profondità di scansione del nostro sito da parte di Google.

Provo ora a darti una mia definizione, molto semplificata:

Google ci dedica del tempo e delle risorse (anche a livello di hardware). Quel poco tempo che Google ci dedica non dobbiamo sprecarlo su pagine che non risultano utili all'utente, alla crescita del fatturato, alla visibilità ecc. Ecco perché dobbiamo capire quali sono queste pagine importanti, visto che non tutte possono avere lo stesso peso.

Chi deve tener conto del Crawl Budget?

Sicuramente i siti molto piccoli, formati da poche pagine, possono trascurare benissimo questo parametro poiché risulterebbe ininfluente. Risulta invece fondamentale lato SEO per i siti formati da tante pagine (es. i siti redazionali, le testate giornalistiche online, i grossi e-commerce ecc.).

Ma ti sei mai chiesto di quante pagine è formato il tuo sito?

Spesso trascuriamo e minimizziamo troppo questo fattore, perché magari lo associamo solo al numero di articoli realizzati. Ci capita spesso di fare questo "errore" quando non conosciamo bene il CMS utilizzato e non siamo a conoscenza del numero elevato di pagine / URL scansionabili e indicizzabili che esso può formare.

In realtà il sito potrebbe essere composto da tante risorse: le pagine, i PDF, le immagini, pagine di archivio e così via. Quindi, per prima cosa, dobbiamo capire quali risorse Google riesce a scansionare e "memorizzare nel suo database".

Come possiamo farlo?

Beh sicuramente l'utilizzo di software che simulano il crawler ci semplifica parecchio il lavoro. Tra i tanti software esistenti, ho selezionato:

Screaming FROG
Visual SEO Studio
OnCrawl
SEMrush

Ma Google visita il mio sito?

Lo possiamo scoprire! Anzi, possiamo scoprire addirittura 2 parametri importanti: il numero di visite e la frequenza di scansione del tuo sito. Ci basterà utilizzare questi 2 semplici strumenti:

il LOG del server degli accessi
Google Search Console

Il LOG del Server

Accedere al LOG del server è molto semplice se si ha accesso al cPanel (o un pannello simile): al suo interno troverai un'icona con scritto "Accesso non elaborato". A questo punto dovresti ritrovare diverse tipologie: dominio, dominio con SSL, dominio FTP. Se il tuo sito è in HTTPS allora potrai cliccare sulla voce "con SSL" (attenzione, il file spesso pesa parecchio).

Ora dovrai elaborare il file, analizzandolo, per capire chi è entrato sul sito, per poi filtrare i dati focalizzando l'attenzione ai BOT di Google e degli altri motori di ricerca.

Per fare questo possiamo scaricare un software che ci faciliti la lettura del log, come Apache Logs Viewer (o simili) oppure utilizzare lo stesso SEMrush con la funzione Log File Analyzer come vedremo.

La Search Console di Google

Con la Search Console riusciamo a capire il numero di richieste al secondo che Google ci dedica e l'intervallo tra una richiesta e l'altra.

Dove troviamo questi dati?

Una volta che entrerai sulla proprietà del tuo sito, clicca sulla rotellina in alto a destra e successivamente seleziona la voce "Impostazioni sito".

Troverai una schermata dove di default è selezionata l'opzione "Lascia che Google esegua l'ottimizzazione del mio sito" per la Frequenza di scansione (opzione consigliata). Selezionando, senza salvare, l'opzione "Limita la frequenza di scansione massima di Google", vengono mostrate le impostazioni che Google ha deciso per il nostro sito:

numero di richieste al secondo
numero di secondi tra le richieste

Attraverso la modifica di questa funzione (che sconsiglio se siete alle prime armi, a meno che non la utilizziate per test su un vostro sito) possiamo richiedere a Google di modificare questi valori.
Entro due giorni Google setterà le nuove impostazioni di crawler per soli 90 giorni (una sorta di test).

Sempre sulla Search Console, andando su Scansione > Statistiche di scansione, potrai visualizzare 3 grafici molto importanti per avere un'idea sempre più dettagliata della scansione:

Statistiche di scansione - Search Console

Pagine sottoposte a scansione giornalmente, quindi quante pagine vengono scansionate in un giorno dai BOT di Google
Kilobyte scaricati giornalmente
Tempo trascorso per il download di una pagina (in millisecondi), quindi se il sito è veloce avremo un grafico tendente verso il basso, viceversa, se il sito è lento, impiegherà molto più tempo nel download, quindi ci ritroveremo un grafico che tende a stare alto.

Come incuriosire Google per fare in modo che ci dedichi più tempo?

L'obiettivo principale è aumentare la popolarità del sito, quindi possiamo agire attraverso:

una buona frequenza di aggiornamento / produzione di contenuti
variazione dei tipi di contenuti, non solo articoli di testo
link interni, diamo link di approfondimento al nostro utente e anche allo spider formando una buona rete
sitemap aggiornate costantemente, che dovranno includere tutti i contenuti realmente accessibili (in status code 200) e utili agli utenti (non pagine inutili create in automatico dal nostro CMS)
Feed RSS
Backlink, puntiamo a far parlare di noi anche "all'esterno".

Ottimizziamo ora il Crawl Budget

Ora che abbiamo stuzzicato Google e lo abbiamo incuriosito, da buoni SEO, è arrivato il momento di ottimizzare!

Prima di ottimizzare, per capire COSA ottimizzare e COME, dobbiamo analizzare i dati facendoci delle domande del tipo:

la scansione è sufficiente per arrivare in poco tempo su tutte le pagine?
sta scegliendo le pagine che abbiamo definito come prioritarie o di obiettivo?
sta ripassando frequentemente dopo gli aggiornamenti?

Con l'ottimizzazione dovremmo evitare di far perdere tempo prezioso a Google su pagine inutili, indirizzandolo invece sulle nostre pagine obiettivo!

Crawl Budget: 10 punti su cui lavorare per l'ottimizzazione

Di seguito ti darò degli spunti su cui poter lavorare anche sul tuo sito, al fine di ottimizzare al meglio il valore del Crawl Budget:

1. Velocità di risposta del server

Se noi ottimizziamo le prestazioni del server, puntando su tempi di risposta eccellenti, significa che, pur dedicandoci lo stesso tempo, Google riuscirà ad eseguire una scansione molto più veloce e quindi più pagine sottoposte a scansione.

Per questo puntiamo a:

Server di qualità
Ottimizzazione del codice
Ottimizzazioni SEO del sito lato velocità (gZip, cache, immagini ottimizzate ecc.)

Confronto grafici statistiche di scansione - Search Console

2. Struttura del sito

Puntiamo ad un' alberatura facilmente scansionabile, che permetta di capire in modo semplice anche la priorità e l'importanza delle pagine.

Evitiamo gli annidamenti inutili, non nascondiamo le pagine foglia ma diamo a tutte le pagine la giusta visibilità.
Evitiamo le pagine orfane, puntiamo ad una buona rete di link interni che permetta di avere per ogni pagina più link interni in entrata.
Non facciamo crescere troppo la profondità delle pagine, limitiamoci a raggiungere il contenuto con i "famosi 3 click".

3. Ottimizziamo il robots.txt

Fissiamo le regole per far risparmiare Crawl Budget, evitando di fargli perdere tempo su pagine inutili (duplicati, pagine parametriche non utili, pagine create dal CMS ecc.).
Per l' ottimizzazione del robots.txt utilizziamo la testa, nulla di automatico, ma dettiamo le regole sulla base di un'analisi approfondita dell'alberatura.

4. Link interni

Facciamo in modo che all'interno dei nostri contenuti siano sempre presenti i link interni di approfondimento, verso altre pagine del sito, immagini, risorse e soprattutto verso le nostre pagine obiettivo.
Creiamo una "ragnatela" di link che possa portare realmente valore a quella determinata pagina linkata. Anche qui non consiglierei nulla di automatico.

5. Correggiamo i link rotti

Gli errori 404 non creano penalizzazioni, come si diceva un tempo, ma in realtà vanno a sprecare Crawl Budget. Se eseguiamo un aggiornamento massivo di URL, cambiando proprio il percorso, non solo dovremo impostare i vari redirect 301 ma anche aggiornare il link nel codice sorgente. Sempre meglio avere una risposta in status code 200. Attraverso un controllo con SEMrush, Screaming Frog, Visual SEO Studio o qualsiasi altro crawler simulato, possiamo verificare tutti gli status code 4xx e correggere!

6. Verifichiamo costantemente il LOG del server

Avere un monitoraggio costante del LOG del server, ci aiuta a risolvere problemi SEO che magari a primo impatto possono non risultare così evidenti. Avere un controllo degli status code restituiti da ogni percorso, capire quali BOT stanno entrando sul nostro sito ecc. ecc., ci aiuta ad avere una visione d'insieme molto più dettagliata. Non fatevi spaventare da tutte quelle righe: con un buon lettore di LOG riuscirete a filtrare le informazioni utili.

Anche SEMrush ha questa funzione attraverso LOG File Analyzer (oggi in versione beta): utilizzando il drag & drop potremo trascinare il file LOG direttamente nella piattaforma e lui andrà ad analizzare automaticamente le informazioni dal nostro file.

7. Usiamo il TAG Link Rel Canonical

Come sappiamo, serve per dichiarare la versione ufficiale delle pagine e quindi il loro percorso. Utilissimo quando abbiamo più pagine con contenuto pressoché identico. Questo non aiuta però a risparmiare Crawl Budget perché comunque la scansione viene eseguita, ma nel corso del tempo Google considererà maggiormente la pagina canonica rispetto alle altre, il che significa che daremo priorità alla pagina veramente utile.
Il TAG link con attributo rel="canonical" lo possiamo impostare direttamente nel codice sorgente o con l'utilizzo di plugin (dipende un po' dal CMS usato).

8. Usiamo la funzione rel="nofollow" (quando opportuno)

Questo evita che il link che contiene il rel="nofollow", venga seguito / scansionato. Ad esempio, se in una pagina foglia di un e-commerce (scheda prodotto) ho tanti link verso prodotti correlati (che già ricevono link dofollow da altre pagine), potremmo valutare di inserire su ciascun link l'attributo rel="nofollow" al tag .
Attenzione però: se questi URL ricevono link dofollow da altre pagine, la risorsa verrà comunque scansionata!

9. Aggiorniamo i contenuti

Lo abbiamo detto anche prima, è un'attività che ci aiuta ad aumentare il tempo e la frequenza che Google ci dedica. Per ogni contenuto aggiornato, possiamo inserire nel codice dei TAG Meta, indicando sia la data di pubblicazione del contenuto sia la data di modifica.

10. Valutiamo se eliminare i contenuti inutili e i doppioni

Tagliare i rami secchi molte volte può essere una buona strategia SEO e può portare grossi vantaggi al nostro sito. Contenuti che non ricevono più traffico perché obsoleti, un argomento che viene trattato allo stesso modo su più pagine. Ecco, in questo caso, soprattutto nei siti redazionali, potrebbe essere più strategico uniformare quel contenuto eliminando chi oggi non produce traffico organico (impostando i dovuti redirect 301). Questo ci aiuta indirettamente a ottimizzare il Crawl Budget perché snelliamo la struttura, dando più rilevanza a un contenuto ricco di informazioni.

Bene, se sei arrivato sin qui (e sei ancora vivo :-) spero di averti dato degli spunti utili per l'ottimizzazione SEO del tuo sito.

Per finire, ti riporto la registrazione video del webinar dedicato al Crawl Budget di qualche settimana fa, dove, a differenza di questo articolo, ho approfondito un po' i singoli punti consigliando anche dei tool che io stesso utilizzo per l'ottimizzazione SEO.

Hai ancora qualche dubbio sull'ottimizzazione del Crawl Budget di un sito web?

Lascia pure un commento qui sotto e risponderò alle tue domande il prima possibile!

A presto.

Crawl Budget: ecco perché devi ottimizzarlo