Per impostare un audit del sito devi prima creare un Progetto per il dominio. Una volta creato il nuovo progetto, seleziona il pulsante "Configura" nel blocco Site Audit dell'interfaccia del progetto.
Se hai problemi a far funzionare il tuo Site Audit, consulta la guida Risoluzione dei problemi di Site Audit.
Dominio e limite di pagine
Verrà visualizzata la prima parte della configurazione guidata, Dominio e limite di pagine. Da qui puoi scegliere o di cliccare su "Avvia Site Audit", che eseguirà immediatamente un audit del tuo sito con le nostre impostazioni predefinite, o di procedere alla personalizzazione delle impostazioni dell'audit a tuo piacimento. Ma non preoccuparti, puoi sempre modificare le impostazioni e eseguire nuovamente la scansione di un'area più specifica del tuo sito dopo la configurazione iniziale.
Ambito crawling
Per eseguire la scansione di un dominio, sottodominio o sottocartella specifici, puoi inserirli nel campo “Ambito crawling”. Se inserisci un dominio in questo campo, ti verrà data l'opzione di eseguire una scansione di tutti i sottodomini del tuo dominio con una casella di controllo.
Per impostazione predefinita lo strumento verifica il dominio principale, che include tutti i sottodomini e le sottocartelle disponibili del tuo sito. Nelle impostazioni di Site Audit puoi specificare il tuo sottodominio o la tua sottocartella come ambito di crawling e deselezionare "Esegui il crawling di tutti i sottodomini" se non vuoi che altri sottodomini vengano analizzati.
Ad esempio, supponiamo che tu voglia analizzare solo il blog del tuo sito web. Puoi specificare l'ambito di crawling come blog.semrush.com o semrush.com/blog/ in base a come è stato implementato, come sottodominio o come sottocartella.
Limite di pagine controllate
Fatto questo, seleziona quante pagine vuoi scansionare per ogni audit. Puoi inserirne un numero personalizzato utilizzando l'opzione "Personalizzato". Scegli questo numero in maniera oculata, a seconda del livello del tuo abbonamento e della frequenza con cui intendi effettuare una nuova analisi del tuo sito web.
- Gli utenti Pro possono eseguire la scansione di fino a 100.000 pagine al mese e 20.000 pagine per audit
- Gli utenti Guru possono eseguire la scansione di fino a 300.000 pagine al mese e 20.000 pagine per audit
- Gli utenti Business possono eseguire la scansione di fino a 1 milione di pagine al mese e 100.000 pagine per audit
Fonte crawl
L'impostazione della fonte di crawl determina il modo in cui il bot di Semrush Site Audit effettua il crawling del tuo sito web e trova le pagine da controllare. Oltre a impostare la fonte di crawl, puoi impostare le maschere e i parametri da includere/escludere dall'audit nei passaggi 3 e 4 della configurazione guidata.
Ci sono 4 opzioni da impostare come fonte di crawl del tuo Audit: Sito web, Sitemap sul sito, Inserisci URL Sitemap e URL dal file.
1. Crawl da sito web significa che effettueremo il crawling del tuo sito come GoogleBot, utilizzando un algoritmo di ricerca breadth-first e navigando attraverso i link che vediamo nel codice della tua pagina, partendo dalla homepage.
Se vuoi effettuare il crawling solo delle pagine più importanti di un sito, scegliendo di effettuare il crawling da Sitemap invece che da Sito web l'audit scansionerà le pagine più importanti piuttosto che solo quelle più accessibili dalla homepage.
2. Crawl da Sitemap sul sito significa che effettueremo il crawling solo degli URL presenti nella sitemap dal file robots.txt.
3. Crawl da Sitemap da URL corrisponde a "Sitemap sul sito", ma questa opzione permette di inserire specificamente l'URL della tua sitemap.
Dal momento che i motori di ricerca utilizzano le sitemap per capire quali pagine devono esaminare, dovresti sempre cercare di mantenere la tua sitemap il più aggiornata possibile e usarla come fonte con il nostro strumento per ottenere un audit accurato.
Nota: Site Audit può utilizzare solo un URL alla volta come fonte di crawl. Quindi se il tuo sito web ha diverse sitemap, l'opzione successiva (Crawl da un file di URL) può funzionare come soluzione alternativa.
4. Crawl da un file di URL ti permette di controllare un insieme super-specifico di pagine di un sito web. Assicurati che il tuo file sia formattato correttamente come .csv o .txt con un URL per riga e caricalo direttamente su Semrush dal tuo computer.
Si tratta di un metodo utile se vuoi controllare pagine specifiche e risparmiare il tuo crawl budget. Se hai apportato delle modifiche solo a un piccolo gruppo di pagine del tuo sito che vuoi controllare, puoi utilizzare questo metodo per eseguire un audit specifico e non sprecare il budget per il crawling.
Dopo aver caricato il file la procedura guidata ti dirà quanti URL sono stati rilevati, in modo che tu possa ricontrollare che abbia funzionato correttamente prima di eseguire l'audit.
Analizzare i JavaScript
Se utilizzi JavaScript sul tuo sito, puoi abilitare il rendering JS nelle Impostazioni della tua campagna Site Audit.
Ti preghiamo di notare che questa funzione è disponibile solo con un abbonamento Guru o Business.
Impostazioni e configurazione avanzata
Nota: i quattro passi successivi della configurazione sono opzionali e di livello avanzato.
Impostazioni crawler
Qui puoi scegliere l'user agent che desideri utilizzare per eseguire la scansione del tuo sito. Per prima cosa, imposta l'user agent della tua analisi scegliendo tra la versione mobile o desktop di SiteAuditBot o di GoogleBot.
Per impostazione predefinita controlliamo il tuo sito con il nostro crawler mobile che aiuta ad esaminare il tuo sito web nello stesso modo in cui il crawler mobile di Google navigherebbe il tuo sito web. Puoi passare al crawler desktop di Semrush in qualunque momento.
Quando cambi user agent vedrai anche la variazione del codice nella finestra di dialogo sottostante. Questo è il codice dell'user agent e può essere utilizzato in un URL di accesso client se vuoi testare l'user agent da solo.
Opzioni di crawl-delay
Hai 3 opzioni per impostare un ritardo di crawl: Ritardo minimo, Rispettare robots.txt e 1 URL ogni 2 secondi.
Se lasci selezionato il ritardo minimo tra le pagine, il bot effettuerà il crawling del tuo sito web alla sua normale velocità. Per impostazione predefinita, SiteAuditBot aspetterà circa un secondo prima di iniziare il crawling di un'altra pagina.
Se hai un file robots.txt sul tuo sito e hai specificato un ritardo di crawl, puoi selezionare l'opzione "rispettare robots.txt" per far sì che il nostro crawler di Site Audit segua il ritardo indicato.
Di seguito è riportato l'aspetto di un ritardo di crawl all'interno di un file robots.txt:
Crawl-delay: 20
Se il nostro crawler rallenta il tuo sito web e non hai una direttiva di ritardo di crawl nel tuo file robots.txt, puoi dire a Semrush di analizzare 1 URL ogni 2 secondi. In questo modo il completamento della verifica potrebbe richiedere più tempo, ma si ridurranno i potenziali problemi di velocità per gli utenti del tuo sito durante l'audit.
Abilita/disabilita URL
Questa opzione ti consentirà di scansionare o bloccare in modo specifico alcune sottocartelle di un sito web. Dovrai includere tutto ciò che si trova all'interno dell'URL dopo il TLD. Ad esempio, se volessi eseguire il crawling della sottocartella http://www.esempio.it/scarpe/uomo/, dovresti inserire: "/scarpe/uomo/" nella casella di autorizzazione a sinistra.
Per evitare il crawling di sottocartelle specifiche dovrai inserire il percorso della sottocartella nella casella di disabilitazione. Ad esempio, per analizzare la categoria delle scarpe da uomo ma evitare la sottocategoria degli scarponi da trekking sotto le scarpe da uomo (https://esempio.it/scarpe/uomo/scarponi-da-trekking/), devi inserire /scarpe/uomo/scarponi-da-trekking/ nella casella di disabilitazione.
Se dimentichi di inserire / alla fine dell'URL nella casella di disabilitazione (es: /scarpe), allora Semrush salterà tutte le pagine nella sottocartella /scarpe/ così come tutti gli URL che iniziano con /scarpe (come ad esempio www.esempio.it/scarpe-uomo).
Rimuovi parametri URL
I parametri dell'URL (anche noti come stringhe di query) sono elementi di un URL che non si inseriscono nella struttura gerarchica del percorso. Invece, vengono aggiunti alla fine di un URL e forniscono istruzioni logiche al browser web.
I parametri URL sono sempre composti da un ? seguito dal nome del parametro (page, utm_medium, ecc.) e da =.
Quindi "?page=3" è un semplice parametro URL che può indicare la terza pagina di scorrimento su un singolo URL.
Il quarto step della configurazione di Site Audit ti permette di specificare eventuali parametri URL utilizzati dal tuo sito web per rimuoverli dagli URL durante il crawling. In questo modo Semrush eviterà di effettuare due volte il crawling della stessa pagina durante l'audit. Se un bot vede due URL, uno con un parametro e uno senza, potrebbe effettuare la scansione di entrambe le pagine, sprecando così il tuo Crawl budget sprecato.
Ad esempio, se aggiungessi "page" in questa casella, verrebbero rimossi tutti gli URL che includono "page" nell'estensione dell'URL. Si tratta di URL con valori come ?page=1, ?page=2, ecc. Questo eviterebbe di eseguire la scansione della stessa pagina due volte (ad esempio, sia "/scarpe" che "/scarpe/?page=1" come un unico URL) nel processo di scansione.
Gli usi più comuni dei parametri URL includono pagine, lingue e sottocategorie. Questi tipi di parametri sono utili per i siti web con grandi cataloghi di prodotti o informazioni. Un altro tipo di parametro URL comune è l'UTM, che viene utilizzato per tracciare i clic e il traffico delle campagne di marketing.
Se hai già impostato un progetto e vuoi modificare le impostazioni, puoi farlo utilizzando l'ingranaggio Impostazioni:
Utilizzerai le stesse indicazioni elencate sopra selezionando le opzioni "Maschere" e "Parametri rimossi".
Ignorare le restrizioni del sito
Per analizzare un sito web in pre-produzione o nascosto da una autenticazione di accesso di base, lo step 5 offre due opzioni:
- Ignorare la regola disallow all'interno di robots.txt e il tag meta robots
- Eseguire il crawling con le tue credenziali per aggirare le aree protette da password
Se vuoi bypassare i comandi di disattivazione nel file robots.txt o nel meta tag (di solito si trova nel tag del
tuo sito web), dovrai caricare il file .txt fornito da Semrush nella cartella principale del tuo sito web.
Puoi caricare questo file nello stesso modo in cui caricheresti un file per la verifica GSC, ad esempio, direttamente nella cartella principale del tuo sito web. Questo processo verifica la proprietà del sito web e ci permette di effettuare il crawling del sito.
Una volta caricato il file, puoi avviare Site Audit e raccogliere i risultati.
Per effettuare il crawling con le tue credenziali, inserisci semplicemente il nome utente e la password che utilizzi per accedere alla parte nascosta del tuo sito web. Il nostro bot utilizzerà le tue informazioni di accesso per accedere alle aree nascoste e fornirti i risultati dell'audit.
Programma
Infine, seleziona la frequenza con cui desideri che il tuo sito venga controllato automaticamente. Le opzioni sono:
- Settimanale (scegli un giorno qualsiasi della settimana)
- Giornaliero
- Una volta
Puoi sempre eseguire nuovamente l'audit quando preferisci all'interno del progetto.
Dopo aver completato tutte le impostazioni desiderate, seleziona "Avvia Site Audit".
Risoluzione dei problemi
Nel caso di una finestra di dialogo "l'audit del dominio non è andato a buon fine", dovrai verificare che il nostro crawler di Site Audit non sia bloccato dal tuo server. Per garantire un crawling corretto, segui i passaggi della sezione Risoluzione dei problemi di Site Audit per inserire il nostro bot nella whitelist.
In alternativa, puoi scaricare il file di log che viene generato quando il crawl non va a buon fine e fornirlo al tuo webmaster in modo che possa analizzare la situazione e cercare di trovare il motivo del blocco del crawling.
Collegare Google Analytics e Site Audit
Dopo aver completato l'installazione guidata, sarai in grado di collegare il tuo account Google Analytics per includere i problemi relativi alle tue pagine più visualizzate.
Se il problema persiste, prova a visitare la sezione Risoluzione dei problemi di Site Audit.