Guida rapida alla scrittura di un file Robots.txt

Enzo Spedaliere

ott 26, 20167 min di lettura
Guida rapida alla scrittura di un file Robots.txt

INDICE

Vuoi comunicare con i Crawler? Impara a scrivere i file robots.txt 

Quando un motore di ricerca “vede” un sito web, ha tante informazioni da dover leggere, alcune importanti altre meno, però deve essere tutto letto e catalogato. La lettura di un sito web inizia dal file robots.txt.

Il robots.txt è un file di facile scrittura che “suggerisce” al motore di ricerca cosa leggere; ma se non conosci di cosa sto parlando direi di andare per gradi: come legge un motore di ricerca i siti? Con il Crawler...

Che cos’è il Crawler?

Il Crawler è un software che analizza i contenuti di una rete in modo automatizzato, ne raccoglie una copia testuale e la inserisce in un indice. Il crawler può essere chiamato anche spider o robot. Esistono più tipi di spider, ogni motore di ricerca ha il suo, in questo link puoi trovare una tabella esplicativa dei spider più “famosi”.

Una volta che hai capito cos’è e come fa il motore di ricerca a leggere i siti, posso ripartire con il discorso del robots.txt .

Quale Figura professionale gestisce il file Robots.txt

Per la definizione dei ruoli lavorativi posso dire che la gestione, come anche la scrittura, è legata a chi lavora nella SEO; sento in giro che questa conoscenza è richiesta anche ad un Social Media Manager.

Questo discorso va bene per conoscenza ma addirittura essere una mansione per chi si deve occupare di altro non mi sembra opportuno, anche perché il file robots una volta scritto deve essere caricato sul server dove si trova l’intero sito, e di solito chi si occupa di promozione web e/o social non ha accesso al server del sito di riferimento.

Se ti occupi della promozione sul web/social e ti viene chiesto di lavorare anche con il robots non ti preoccupare anzi, ti dico di più, continua a leggere e alla fine di questo articolo potrai scriverlo anche tu senza nessun problema.

Come si scrive un file Robots.txt

Il file robots.txt è composto da una grammatica molto semplice, di solito è fatto di poche righe, e lo puoi vedere in ogni sito che tu voglia basta che dopo il dominio inserisci la / e poi scrivi robots.txt ad es. http://www.google.it/robots.txt.

Il file robots.txt di Google

Lo strumento che puoi utilizzare per poter scrivere un file robots.txt può essere il classico Notepad, Blocco note o un qualsiasi programma di scrittura che ti permetta il salvataggio del file con estensione *.txt .

Grammatica del file Robots.txt

Adesso sai a cosa serve il file robots, chi lo legge, come e quale strumento utilizzare per poterlo scrivere; ti manca solo di conoscere la grammatica, tranquillo perché è semplice, non ha molte voci e comandi.

Intestazione del file

L’apertura del file (cioè la prima riga del documento che dovrai scrivere) è dedicata al nome dello spider che dovrà leggere quel particolare blocco di informazioni. Il nome dello spider è anticipato da questa scrittura:

User-agent:

Quindi se vuoi che le informazioni vengano lette solo dal crawler di Google dovrai scrivere così:

User-agent: Googlebot

In questo modo tutto quello che verrà scritto dopo questa intestazione sarà d’interesse solo di questo spider e nessun altro. Se vuoi fare un discorso più generale, cioè se vuoi dare delle definizioni a tutti i crawler che leggono il file robots.txt, allora puoi scrivere così:

User-agent: *

L'asterisco sta ad indicare che qualsiasi tipo di spider deve leggere le prossime istruzioni. Quindi il tuo file potrà essere scritto in questo modo:

User-agent: Googlebot


User-agent: Mercator

Oppure potrai scriverlo così:

User-agent: *

Una volta che avrai indicato quale spider deve leggere, dovrai anche scrivere cosa vuoi che legga.

Disallow: Ragionare per esclusione

Se hai una infarinatura di programmazione, sai che ad ogni riga di codice corrisponde un'azione della macchina. Per il file robots ogni riga di comando corrisponde a quello che la macchina non deve fare. Il comando più importante per poter scrivere un file robots.txt è il Disallow cioè quello che indica ciò che non deve leggere.

Ovviamente a questo tipo di comando devi aggiungere quello che ti permette di creare l’eccezione al blocco del disallow, cioè allow. Adesso li analizzeremo uno alla volta, così da non creare confusione.

Il comando Disallow

Come ti dicevo devi ragionare in maniera inversa, quindi nel file robots.txt dovrai dire quello che non deve essere letto dallo spider. La grammatica è questa:

Disallow:

Ovviamente dopo i due punti devi inserire quello che non deve essere letto. Se dovessi lasciarlo così potresti avere la lettura dell’intero sito senza nessun freno.

Disallow: /

Con questo comando si dice al crawler di non leggere nulla, quindi il sito non verrà inserito nei risultati dei motori di ricerca. Altre opzioni sono: 

Disallow: /directory/

Questo è il comando utile per poter negare l’accesso ad una particolare directory del sito. E ancora: 

Disallow: /filepersonale.html

Se non vuoi far leggere un preciso file questo è il comando che devi scrivere.

Questi sono i comandi principali per il Disallow, a questo link ne trovi altri che ti possono essere utili per altre situazioni particolari. Sta attento alle lettere maiuscole e minuscole quando segnali un link, una directory ecc. perché c’è differenza se scrivi filepersonale.hmtl oppure Filepersonale.html: sono due risorse differenti.

L’eccezione, il comando Allow

Nel file robots.txt, alla restrizione di disallow puoi aggiungere un’eccezione con il comando allow. La grammatica di allow è uguale al disallow, ad esempio:

Allow:

Ovviamente dopo i due punti andrà la risorsa che non dovrà subire la restrizione di un comando precedente.

Adesso scrivo un file robots.txt tipo, così da essere più chiaro:

User-agent: *
Disallow: /directory/
Allow: /directory/image.jpg

Questo potrebbe essere un file robots tipo. Queste righe dicono che qualsiasi spider non deve leggere la cartella directory, ma deve escludere da questo comando il file image.jpg che invece deve essere letto.

Ovviamente questo è un file robots.txt semplice, ma sta tranquillo perché quello che dovrai scrivere sarà di questa tipologia, non credo di più complessi.

Finito? Sí, o quasi: ti manca la Sitemap

Sai benissimo che ogni sito deve avere la sua sitemap. La sitemap è quel particolare file che contiene tutti i link presenti nel sito, quindi per ipotesi conterrà tutte le pagine, articoli, immagini ecc.

Quando lo spider entra nel sito la prima azione che compie è la lettura del file robots.txt; letto questo passa alla scansione del sito. Se nel file robots gli fai trovare anche l’indirizzo è il luogo di dove si trova la sitemap è molto meglio, fa prima, ottimizza i tempi di lettura.

Sitemap: http://www.iltuosito.com/sitemap.xml

Con questa riga avvisi lo spider che troverà il file sitemap.xml nella directory di root del sito.

Commentare…

Come per tutti i file c’è possibilità di poter inserire dei commenti. Il rigo che indica il commento dovrà riportare # in testa alla stringa di comando.

Un file robots.txt tipo

Adesso che conosci tutta la grammatica e il funzionamento del file robots, puoi ragionare su questo esempio:

#inizio del file robots
User-agent: *
Disallow: /directory/
Allow: /directory/image.jpg
Sitemap: http://www.iltuosito.com/sitemap.xml

In questo testo sono riportati tutti i comandi che abbiamo visto finora, ma non è detto che dovrai per forza usarli tutti, anzi…

Innanzitutto devi sapere che una volta che hai creato il file robots.txt dovrai caricarlo nella cartella di root del sito così che possa essere raggiungibile semplicemente così: http://www.iltuosito.com/robots.txt. Inoltre - questo devi tenerlo bene a mente - se dici allo spider di non leggere un determinato file questo non vuol dire che non si potrà accedere a quel file, ma significa che non risulterà nella serp del motore di ricerca.

Quindi se io scrivo:

Disallow: /filepersonale.html

questo significa che il filepersonale.html non potrà essere ricercato sul motore di ricerca, ma se io utente conosco l’indirizzo potrò accedere comunque a quel particolare file.

Presta molto attenzione a non abusare del comando del disallow, perché non è una buona pratica utilizzarlo per nascondere file o directory dalla serp: per fare questo tipo di lavoro conviene utilizzare gli strumenti per webmaster (come ad es. il Search Console di Google).

Il file robots.txt si scrive allo stesso modo per tutti i motori di ricerca?

Si, la sua grammatica e la sua struttura sono riconosciute da tutti i motori di ricerca che ci sono in circolazione, anzi i nuovi motori di ricerca si sono adeguati alla grammatica di quelli che lo hanno preceduto.

Cosa dice Google in merito al file robots?

Un po' di anni fa Matt Cuts rilasciò una dichiarazione, tramite YouTube, che liberò gli spider di Google. Matt Cuts racconta in questo video che lo spider di Google non deve essere bloccato: il crawler deve avere la possibilità di poter leggere il sito per intero, senza nessun limite. Ecco il suo intervento:

Youtube video thumbnail

Conclusioni

Avere un file robots.txt ben organizzato e ben scritto fa risparmiare molto tempo allo spider, e far risparmiare tempo al crawler vuol dire avere la certezza che leggerà una buona parte del sito.

Adesso ti lascio con una chicca, non so se l’avevi mai visto ma a questo link trovi il robots.txt di Facebook ;) 

Cosa ne dici, vuoi provare a scrivere il tuo primo file robots.txt?

Lascia un commento all'articolo se hai ancora qualche dubbio sui bot e le loro modalità di accesso ai siti web, oppure contattami sui miei Social, sono a disposizione per ogni forma di chiarimento e/o approfondimento.

Se questo post ti è piaciuto, e ora hai voglia di approfondire il discorso anche sugli altri tipi di Robots, non perderti il webinar realizzato da SEMrush sui Robots Exclusion Protocol. Te lo riproponiamo qui sotto.

Buona visione!

Youtube video thumbnail
Condividi
Author Photo
Sono Enzo e mi occupo di comunicazione Web. Nasco professionalmente come webmaster. Il mio percorso di studi mi ha portato ad abbandonare un po quel tipo di figura, e mi sono avvicinato a quella del Social Media Manager. La passione per il web mi ha spinto anche a sperimentare nel campo della SEO. Dove puoi trovare tutto quello che ti ho scritto? Sul mio sito Zensoft.it.
Maggiori info