Site Audit non funziona correttamente?
Ci sono vari motivi per cui al crawler di Site Audit viene impedito l'accesso ad alcune pagine, in base alla configurazione e alla struttura del tuo sito web, inclusi:
- Il file robots.txt blocca il crawler
- La portata del crawling esclude determinate aree del sito
- Il sito web non è direttamente online per via di un hosting condiviso
- Le pagine sono dietro un gateway/area utenti del sito
- Il crawler è bloccato da un tag noindex
- Il dominio non può essere risolto dal DNS - il dominio inserito durante il setup è offline -
- I contenuti del sito sono creati in Javascript - il nostro sistema controlla solo contenuti fissi del sito web e può fornire solo un audit parziale degli elementi dinamici
Step per la risoluzione dei problemi
Segui questi step di risoluzione dei problemi per vedere se puoi correggere qualcosa da solo prima di chiedere supporto al nostro team di assistenza.
Il file robots.txt dà istruzioni ai bot su come eseguire o meno il crawling delle pagine di un sito web. Puoi autorizzare o proibire a bot come Googlebot o Semrushbot di eseguire il crawling del tuo sito o di aree specifiche usando comandi come Allow, Disallow, e Crawl Delay.
Se il tuo file robots.txt non autorizza il bot a eseguire il crawling del tuo sito, Site Audit non potrà controllare il tuo sito.
Puoi verificare la presenza di comandi disallow nel tuo file robots.txt che potrebbero impedire a crawler come il nostro di accedere al tuo sito web.
Per permettere al bot di Semrush Site Audit (SiteAuditBot) di eseguire il crawling sul tuo sito, aggiungi quanto segue al tuo file robots.txt:
User-agent: SiteAuditBot
Disallow:
(lascia uno spazio bianco dopo “Disallow:”)
Ecco un esempio di come può apparire un file robots.txt:
Tieni conto dei vari comandi basati sull'user agent (crawler) a cui punta il file.
Questi file sono pubblici e, per poter essere trovati, devono essere nel livello più alto di un sito. Per trovare il file robots.txt di un sito web, inserisci il dominio principale di un sito seguito da /robots.txt nel tuo broswer. Per esempio, il file robots.txt di Semrush.com si trova in https://semrush.com/robots.txt.
Tra i termini che puoi trovare in un file robots.txt ci sono:
- User-Agent = il crawler web a cui stai dando istruzioni.
- Es.: SiteAuditBot, Googlebot
- Allow = un comando (solo per Googlebot) che dice che il bot può eseguire il crawling di una determinata pagina o area di un sito anche se la pagina o la cartella padre sono non autorizzati.
- Disallow = un comando che dice al bot di non eseguire il crawling di uno specifico URL o sottocartella del sito.
- Es.: Disallow: /admin/
- Crawl Delay = un comando che dice ai bot quanti secondi attendere prima di caricare e analizzare un'altra pagina.
- Sitemap = indica dove si trova il file sitemap.xml per un determinato URL
- / = usa il simbolo "/" dopo un comando disallow per dire al bot di non eseguire il crawling in tutto il sito
- * = un metacarattere che rappresenta qualunque stringa di caratteri possibili in un URL, usato per indicare un'area del sito o tutti gli user agent.
- Es.: Disallow: /blog/* indica tutti gli URL nella sottocartella Blog del sito
- Es.: User agent: * indica istruzioni per tutti i bot
Leggi di più sulle specifiche del file robots.txt sul sito di Google o sul blog di Semrush.
Se vedi il seguente codice nella pagina principale di un sito web, indica che non siamo ad autorizzati a indicizzare/seguire link e il nostro accesso è bloccato.
<meta name="robots" content="noindex, nofollow" >
Oppure, se una pagina contiene almeno uno dei seguenti codici: "noindex", "nofollow", "none", si verificherà un errore nel crawling.
Per autorizzare il nostro bot a eseguire il crawling di questa pagina, rimuovi i tag "noindex" dal codice della pagina. Per maggiori informazioni sul tag noindex, fai riferimento a questo articolo del Supporto di Google.
Per mettere in whitelist il bot, contatta il tuo webmaster o il provider dell'hosting e chiedi di mettere in whitelist SiteAuditBot.
Gli indirizzi IP del bot sono 85.208.98.128/25
Per connettersi il bot usa le porte standard 80 HTTP e 443 HTTPS.
Se usi un qualunque plugin (per esempio Wordpress) o CDN (content delivery network) per gestire il tuo sito, dovrai mettere il bot in whitelist anche per loro.
Per inserire il bot in whitelist in Wordpress, contatta il supporto di Wordpress.
I CDN più comuni che bloccano il nostro crawler includono:
- Cloudflare - leggi come inserire il bot in whitelist qui
- Imperva - leggi come inserire il bot in whitelist qui
- ModSecurity - leggi come inserire il bot in whitelist qui
- Sucuri - leggi come inserire il bot in whitelist qui
Nota bene: se hai un hosting condiviso, è possibile che il tuo provider dell'hosting non ti permetta di mettere in whitelist nessun bot o di modificare il file robots.txt.
Provider di hosting
Ecco un elenco di alcuni dei più famosi provider di hosting sul web e come inserire in whitelist un bot su ognuno o come contattare il team di supporto:
- Siteground - istruzioni per inserire in whitelist
- 1&1 IONOS - istruzioni per inserire in whitelist
- Bluehost* - istruzioni per inserire in whitelist
- Hostgator* - istruzioni per inserire in whitelist
- Hostinger - istruzioni per inserire in whitelist
- GoDaddy - istruzioni per inserire in whitelist
- GreenGeeks - istruzioni per inserire in whitelist
- Big Commerce - È necessario contattare il supporto
- Liquid Web - È necessario contattare il supporto
- iPage - È necessario contattare il supporto
- InMotion - È necessario contattare il supporto
- Glowhost - È necessario contattare il supporto
- A2 Hosting - È necessario contattare il supporto
- Dream Host - È necessario contattare il supporto
* Nota bene: queste istruzioni funzionano per HostGator e Bluehost se hai un sito web su VPS o con un hosting dedicato.
Per vedere quanto hai consumato del tuo budget di crawling, va in Profilo - Informazioni di sottoscrizione e cerca "Pagine da analizzare" sotto "Il mio piano".
In base al tuo livello di sottoscrizione, sei limitato a un numero predefinito di pagine mensile su cui puoi eseguire il crawling (budget di crawling mensile). Se vuoi superare il numero di pagine autorizzate nella tua sottoscrizione, dovrai acquistare limiti aggiuntivi o attendere il mese successivo con l'aggiornamento dei limiti.
Inoltre, se durante la configurazione si verificano l'errore "Hai raggiunto il limite di campagne condotte in contemporanea", si tenga presente che i diversi livelli di abbonamento hanno limiti diversi per audit simultanei.
- Free: 1
- Pro: 2
- Guru: 2
- Business: 5
Se il dominio non può essere risolto dal DNS, probabilmente significa che il dominio che hai inserito durante la configurazione è offline. In genere, gli utenti hanno questo problema quando inseriscono un dominio principale (example.com) senza rendersi conto che la versione dominio principale del loro sito non esiste e che deve invece essere inserita la versione WWW (www.example.com).
Per evitare questo problema, il proprietario del sito può aggiungere un reindirizzamento dal non sicuro "example.com" al sicuro "www.example.com" che esiste sul server. Questo problema si può verificare anche in senso inverso, ossia se il dominio principale è sicuro ma la versione WWW no. In questo caso, dovresti semplicemente reindirizzare la versione WWW sul dominio principale.
Se la tua homepage ha link al resto del tuo sito nascosti in elementi JavaScript, devi abilitare il JS-rendering, in modo da permetterci di leggerli e di analizzare queste pagine. Questa funzionalità è disponibile per l'abbonamento Guru o Business.
Per evitare che le pagine più importanti del tuo sito non vengano analizzate dal crawler, puoi modificare la tua fonte di crawling da sito web a sitemap. In questo modo non ci sfuggirà nessuna delle pagine menzionate nella sitemap.
Possiamo anche analizzare l'HTML di una pagina che ha alcuni elementi in JS, e possiamo valutare i parametri dei tuoi file JS e CSS con i nostri controlli Performance.
C'è la possibilità che il tuo sito stia bloccando SemrushBot nel tuo file robots.txt. Puoi cambiare lo User Agent da SemrushBot a GoogleBot e, probabilmente, il tuo sito autorizzerà il crawling dello User Agent di Google. Per effettuare questa modifica, trova l'icona a forma di ingranaggio nel tuo progetto e seleziona User Agent.
Se viene usata questa opzione, le risorse interne bloccate e le pagine di cui è proibito il crawling non verranno attivate. Ricorda che, per poter usare questa opzione, è necessario verificare la proprietà del sito.
Quest'opzione è utile per i siti che sono in manutenzione. È utile anche quando il proprietario del sito non vuole modificare il file robots.txt.
Per eseguire l'audit di aree private del tuo sito, che sono protette da password, inserisci le tue credenziali nell'opzione "Eseguire il crawling con le tue credenziali" presente nel menù a tendina dell'ingranaggio. Questo permette al bot di Site Audit di raggiungere quelle pagine e di eseguire l'audit per te.
Questo approccio è particolarmente raccomandato per i siti ancora in sviluppo o per quelli privati e protetti da password.
Contatta l'Assistenza Semrush
Se hai bisogno di un’assistenza personale, preghiamo di contattare il nostro Support team.