Questo articolo è rivolto principalmente agli addetti ai lavori che dovrebbero avere una conoscenza di alto livello sul funzionamento dei motori di ricerca, quindi in questa sede approfondiremo i processi che il motore di ricerca e i crawler web utilizzano per comprendere il web.

Cominciamo con il processo di scansione.

Che cos'è la scansione dei motori di ricerca?

definizione della scansione delle pagine web

La scansione è il processo utilizzato dai crawler web dei motori di ricerca (bot o spider) per visitare e scaricare una pagina ed estrarne i collegamenti (link) per scoprire pagine aggiuntive.

Le pagine note al motore di ricerca vengono sottoposte a scansione periodica per determinare se sono state apportate modifiche al contenuto della pagina dall'ultima scansione.

Se un motore di ricerca rileva modifiche a una pagina dopo aver eseguito la scansione di una pagina, aggiornerà l'indice in risposta a tali modifiche rilevate.

Come funziona la scansione web?

I motori di ricerca utilizzano i propri crawler Web per scoprire e accedere alle pagine Web.

Tutti i crawler dei motori di ricerca commerciali iniziano a eseguire la scansione di un sito Web scaricando il file robots.txt, che contiene le regole su quali pagine i motori di ricerca dovrebbero o non dovrebbero eseguire la scansione sul sito Web. Il file robots.txt può contenere anche informazioni sulle sitemap; questo contiene elenchi di URL su cui il sito desidera eseguire la scansione di un crawler del motore di ricerca.

I crawler dei motori di ricerca utilizzano una serie di algoritmi e regole per determinare la frequenza con cui eseguire la scansione di una pagina e quante pagine su un sito devono essere indicizzate. Ad esempio, una pagina che cambia regolarmente può essere sottoposta a scansione più frequentemente di una che viene modificata raramente.

Per approfondire leggi il post:  Che cosa sono la crawlability e l'indexability di un sito web?

Come si possono identificare i crawler dei motori di ricerca?

come identificare i bot dei motori di ricerca

I bot dei motori di ricerca che eseguono la scansione di un sito Web possono essere identificati dalla stringa dell'agente utente che passano al server Web quando richiedono pagine Web.

Ecco alcuni esempi di stringhe dell'agente utente utilizzate dai motori di ricerca:

  • Googlebot User Agent
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Bingbot User Agent
  • Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
  • Baidu User Agent
  • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
  • Yandex User Agent
  • Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Chiunque può utilizzare lo stesso user agent di quelli utilizzati dai motori di ricerca. Tuttavia, l'indirizzo IP che ha effettuato la richiesta può anche essere utilizzato per confermare che proviene dal motore di ricerca, un processo chiamato reverse DNS lookup.

Come vedono il tuo sito i web crawler?

Scopri come funzionano i robot dei motori di ricerca

ADS illustration

Scansione di immagini e altri file non di testo

I motori di ricerca tentano normalmente di eseguire la scansione e l'indicizzazione di tutti gli URL che incontrano.

Tuttavia, se l'URL è un tipo di file non testuale come un'immagine, un file video o audio, i motori di ricerca non saranno in genere in grado di leggere il contenuto del file diverso dal nome file e dai metadati associati.

Sebbene un motore di ricerca possa essere in grado di estrarre solo una quantità limitata di informazioni sui tipi di file non di testo, è comunque possibile indicizzarli e posizionarli nei risultati di ricerca e ricevere traffico.

Per approfondire leggi:  Immagini e SEO: come ottimizzare le immagini per Google.

Scansione ed estrazione di collegamenti da pagine

I crawler scoprono nuove pagine eseguendo una nuova scansione delle pagine esistenti che già conoscono, quindi estraendo i collegamenti ad altre pagine per trovare nuovi URL. Questi nuovi URL vengono aggiunti alla coda di scansione in modo che possano essere scaricati in un secondo momento.

Attraverso questo processo di seguire i diversi link interni, i motori di ricerca sono in grado di scoprire tutte le pagine Web disponibile su Internet.

Sitemap

Un altro modo in cui i motori di ricerca possono scoprire nuove pagine è la scansione delle sitemap.

Le Sitemap contengono set di URL e possono essere create da un sito Web per fornire ai motori di ricerca un elenco di pagine da sottoporre a scansione. Questi possono aiutare i motori di ricerca a trovare contenuti nascosti in profondità di un sito Web e possono fornire ai SEO la possibilità di controllare e comprendere meglio le aree di indicizzazione e frequenza del sito.

Come ci aiuta SEMrush?

Forse non lo sai ma SEMrush dispone di una funzione molto interessante che permette agli utenti di effettuare al volo un re-crawl di una determinata pagina del loro sito web.​

Grazie a questa funzionalità di SEMrush puoi effettuare in pochi istanti un re-crawl solo su una singola pagina, invece di ripetere daccapo l'analisi di Site Audit dell'intera campagna.

Basta andare in page report (fig 1), trovare con i filtri la pagina che vuoi controllare (Fig. 2) e cliccare sull'icona della freccia tonda nella nuova colonna 'Re-audit URL' (Fig. 3). Questo farà sì che venga compiuto un re-crawl sulla pagina selezionata, dandoti un aggiornamento in tempo reale del suo stato.

Come effettuare il crawling di una pagina con SEMrush

Per approfondire leggi la notizia completa.

Conoscevi già questa funzionalità di Site Audit?

Dimmi cosa ne pensi. 

Prova ora Site Audit!

Effettua la scansione del tuo sito o di una sola pagina.

ADS illustration
Author Photo
Gaetano RomeoGrowth Manager, Start up mentor e Advisor di diverse aziende, Gaetano è nato a Palermo nel 1979, laureato in Lingue e letterature Euro-Americane, muove i primi passi nel digitale nel 2003 lavorando per piccole realtà locali. Fondamentale la sua esperienza tedesca, che lo stesso Gaetano ritiene di importanza capitale per la sua formazione non solo tecnica, ma anche umana. A Berlino, Gaetano lavora per multinazionali quali StudiVZ nel 2006, una sorta di Facebook tedesco, diventando Country manager per l’Italia, Zalando e Groupon in qualità di consulente, nel 2008 lavora a Monaco in qualità di Head of SEO per MYDAYS Italia, dal 2010 ha gestito a Milano SEO Romeo, successivamente divenuta Digital Laboratory, una delle realtà digitali più importanti in Italia. Adesso si occupa di far crescere le start up più interessanti, business advisor di notizie.it e top brand influencer di Semrush. Direttore editoriale collana digital generation per il gruppo Maggioli e direttore della Pambianco Academy, Advisor e socio di Notizie.it Autore dei libri Trova lavoro con il web, SEO & Inbound marketing e SEO per e-commerce.
Subscribe to learn more about SEO Tecnica
By clicking “Subscribe” you agree to Semrush Privacy Policy and consent to Semrush using your contact data for newsletter purposes
More about SEO Tecnica
Spiegazione del Meta tag robots e dell'X-Robots-TagIn questa guida ti aiuteremo a capire come usare i meta tag robots e x-robots-tag per controllare l‘indicizzazione dei contenuti del tuo sito web e come individuare errori comunemente commessi. Inoltre, condivideremo approfondimenti su come implementarli e quando utilizzare ciascuna delle due opzioni.
12 min read