Il tuo browser non è aggiornato. Il sito potrebbe non essere visualizzato correttamente. Ti invitiamo ad aggiornare il tuo browser.

Conoscenza
Semrush Toolkits
SEO Toolkit
Site Audit
Risoluzione dei problemi di Site Audit

Risoluzione dei problemi di Site Audit

Manual

Site Audit non funziona correttamente?

Ci sono vari motivi per cui al crawler di Site Audit viene impedito l'accesso ad alcune pagine, in base alla configurazione e alla struttura del tuo sito web, inclusi:

  • Il file robots.txt blocca il crawler
  • La portata del crawling esclude determinate aree del sito
  • Il sito web non è direttamente online per via di un hosting condiviso
  • Le pagine sono dietro un gateway/area utenti del sito
  • Il crawler è bloccato da un tag noindex
  • Il dominio non può essere risolto dal DNS - il dominio inserito durante il setup è offline -
  • I contenuti del sito sono creati in Javascript - il nostro sistema controlla solo contenuti fissi del sito web e può fornire solo un audit parziale degli elementi dinamici

Step per la risoluzione dei problemi

Segui questi step di risoluzione dei problemi per vedere se puoi correggere qualcosa da solo prima di chiedere supporto al nostro team di assistenza.

Controlla la presenza di comandi Disallow nel tuo file robots.txt

Il file robots.txt dà istruzioni ai bot su come eseguire o meno il crawling delle pagine di un sito web. Puoi autorizzare o proibire a bot come Googlebot o Semrushbot di eseguire il crawling del tuo sito o di aree specifiche usando comandi come Allow, Disallow, e Crawl Delay.

Se il tuo file robots.txt non autorizza il bot a eseguire il crawling del tuo sito, Site Audit non potrà controllare il tuo sito.

Puoi verificare la presenza di comandi disallow nel tuo file robots.txt che potrebbero impedire a crawler come il nostro di accedere al tuo sito web.

Per permettere al bot di Semrush Site Audit (SemrushBot-SA) di eseguire il crawling sul tuo sito, aggiungi quanto segue al tuo file robots.txt:

User-agent: SemrushBot-SA

Disallow:   

(lascia uno spazio bianco dopo “Disallow:”)

Ecco un esempio di come può apparire un file robots.txt:

Risoluzione dei problemi di Site Audit image 1

Tieni conto dei vari comandi basati sull'user agent (crawler) a cui punta il file.

Questi file sono pubblici e, per poter essere trovati, devono essere nel livello più alto di un sito. Per trovare il file robots.txt di un sito web, inserisci il dominio principale di un sito seguito da /robots.txt nel tuo broswer. Per esempio, il file robots.txt di Semrush.com si trova in https://semrush.com/robots.txt.

Tra i termini che puoi trovare in un file robots.txt ci sono:

  • User-Agent = il crawler web a cui stai dando istruzioni.
    • Es.: SemrushBot-SI, Googlebot
  • Allow = un comando (solo per Googlebot) che dice che il bot può eseguire il crawling di una determinata pagina o area di un sito anche se la pagina o la cartella padre sono non autorizzati.
  • Disallow = un comando che dice al bot di non eseguire il crawling di uno specifico URL o sottocartella del sito. 
    • Es.: Disallow: /admin/
  • Crawl Delay = un comando che dice ai bot quanti secondi attendere prima di caricare e analizzare un'altra pagina. 
  • Sitemap = indica dove si trova il file sitemap.xml per un determinato URL
  • / = usa il simbolo "/" dopo un comando disallow per dire al bot di non eseguire il crawling in tutto il sito 
  • * = un metacarattere che rappresenta qualunque stringa di caratteri possibili in un URL, usato per indicare un'area del sito o tutti gli user agent. 
    • Es.: Disallow: /blog/* indica tutti gli URL nella sottocartella Blog del sito
    • Es.: User agent: * indica istruzioni per tutti i bot

Leggi di più sulle specifiche del file robots.txt sul sito di Google o sul blog di Semrush.

Rimuovi i tag restrittivi dal tuo sito

Se vedi il seguente codice nella pagina principale di un sito web, indica che non siamo ad autorizzati a indicizzare/seguire link e il nostro accesso è bloccato.

<meta name="robots" content="noindex, nofollow" >

Oppure, se una pagina contiene almeno uno dei seguenti codici: "
noindex", "nofollow", "none", si verificherà un errore nel crawling.

Per autorizzare il nostro bot a eseguire il crawling di questa pagina, rimuovi i tag "noindex" dal codice della pagina. Per maggiori informazioni sul tag noindex, fai riferimento a questo
articolo del Supporto di Google.

Metti SemrushBot in whitelist

Per mettere in whitelist il bot, contatta il tuo webmaster o il provider dell'hosting e chiedi di mettere in whitelist SemrushBot-SA e SiteAuditBot.

Gli indirizzi IP del bot sono:

  • 46.229.173.68
  • 46.229.173.67
  • 46.229.173.66
  • 85.208.98.128/25

Per connettersi il bot usa le porte standard 80 HTTP e 443 HTTPS.

Se usi un qualunque plugin (per esempio Wordpress) o CDN (content delivery network) per gestire il tuo sito, dovrai mettere il bot in whitelist anche per loro.

Per inserire il bot in whitelist in Wordpress, contatta il supporto di Wordpress.

I CDN più comuni che bloccano il nostro crawler includono:

  • Cloudflare - leggi come inserire il bot in whitelist qui
  • Imperva - leggi come inserire il bot in whitelist qui
  • ModSecurity - leggi come inserire il bot in whitelist qui
  • Sucuri - leggi come inserire il bot in whitelist qui

Nota bene: se hai un hosting condiviso, è possibile che il tuo provider dell'hosting non ti permetta di mettere in whitelist nessun bot o di modificare il file robots.txt.

Provider di hosting

Ecco un elenco di alcuni dei più famosi provider di hosting sul web e come inserire in whitelist un bot su ognuno o come contattare il team di supporto:

  1. Siteground - istruzioni per inserire in whitelist 
  2. 1&1 IONOS - istruzioni per inserire in whitelist 
  3. Bluehost* - istruzioni per inserire in whitelist 
  4. Hostgator* - istruzioni per inserire in whitelist 
  5. Hostinger - istruzioni per inserire in whitelist 
  6. GoDaddy - istruzioni per inserire in whitelist 
  7. GreenGeeks - istruzioni per inserire in whitelist 
  8. Big Commerce - È necessario contattare il supporto 
  9. Liquid Web - È necessario contattare il supporto 
  10. iPage - È necessario contattare il supporto 
  11. InMotion - È necessario contattare il supporto 
  12. Glowhost - È necessario contattare il supporto 
  13. A2 Hosting - È necessario contattare il supporto 
  14. Dream Host - È necessario contattare il supporto 

* Nota bene: queste istruzioni funzionano per HostGator e Bluehost se hai un sito web su VPS o con un hosting dedicato.

Verifica i limiti dell'account

Per vedere quanto hai consumato del tuo budget di crawling, va in Profilo - Informazioni di sottoscrizione e cerca "Pagine da analizzare" sotto "Il mio piano".

In base al tuo livello di sottoscrizione, sei limitato a un numero predefinito di pagine mensile su cui puoi eseguire il crawling (budget di crawling mensile). Se vuoi superare il numero di pagine autorizzate nella tua sottoscrizione, dovrai acquistare limiti aggiuntivi o attendere il mese successivo con l'aggiornamento dei limiti.

Reindirizzamenti corretti (per i problemi di DNS)

Se il dominio non può essere risolto dal DNS, probabilmente significa che il dominio che hai inserito durante la configurazione è offline. In genere, gli utenti hanno questo problema quando inseriscono un dominio principale (example.com) senza rendersi conto che la versione dominio principale del loro sito non esiste e che deve invece essere inserita la versione WWW (www.example.com). 

Per evitare questo problema, il proprietario del sito può aggiungere un reindirizzamento dal non sicuro "example.com" al sicuro "www.example.com" che esiste sul server. Questo problema si può verificare anche in senso inverso, ossia se il dominio principale è sicuro ma la versione WWW no. In questo caso, dovresti semplicemente reindirizzare la versione WWW sul dominio principale.

Cambia la fonte del crawling (JavaScript)

Al momento Semrush non riesce ad analizzare i contenuti JavaScript, quindi se la tua homepage ha link al resto del tuo sito nascosti da elementi JavaScript non saremo in grado di leggerli ed eseguire il crawling di quelle pagine.

Noi eseguiamo il crawling di JS e CSS e facciamo controlli delle prestazioni (riduzione, compressione). Non possiamo renderizzare i JS perché non possiamo ottenere contenuti e link che appaiono solo dopo il rendering.

Tuttavia, puoi implementare lo schema di crawling AJAX, e Site Audit troverà i link nei tuoi JavaScript e li seguirà fino ai contenuti a cui puntano sul tuo sito. Tutto quello che devi fare è riavviare la tua campagna e variare la fonte del crawling da Sito web a Sitemap. Può leggere di più a riguardo in questa notizia.

Per non farti sfuggire le pagine più importanti del tuo sito con il nostro crawling, puoi modificare la tua fonte di crawling da sito web a Sitemap: in questo modo non salteremo nessuna pagina menzionata nella sitemap.

Nonostante non possiamo eseguire il crawling di contenuti JavaScript, possiamo farlo sull'HTML di una pagina che ha alcuni elementi JS e possiamo controllare i parametri dei tuoi file JS e CSS con i nostri controlli Prestazioni.

Cambia lo User agent

C'è la possibilità che il tuo sito stia bloccando SemrushBot nel tuo file robots.txt. Puoi cambiare lo User Agent da SemrushBot a GoogleBot e, probabilmente, il tuo sito autorizzerà il crawling dello User Agent di Google. Per effettuare questa modifica, trova l'icona a forma di ingranaggio nel tuo progetto e seleziona User Agent.

Risoluzione dei problemi di Site Audit image 2

Ignora il disallow nel file robots.txt

Se viene usata questa opzione, le risorse interne bloccate e le pagine di cui è proibito il crawling non verranno attivate. Ricorda che, per poter usare questa opzione, è necessario verificare la proprietà del sito.

Quest'opzione è utile per i siti che sono in manutenzione. È utile anche quando il proprietario del sito non vuole modificare il file robots.txt.

Esegui il crawling con le tue credenziali

Per eseguire l'audit di aree private del tuo sito, che sono protette da password, inserisci le tue credenziali nell'opzione "Eseguire il crawling con le tue credenziali" presente nel menù a tendina dell'ingranaggio. Questo permette al bot di Site Audit di raggiungere quelle pagine e di eseguire l'audit per te.

Questo approccio è particolarmente raccomandato per i siti ancora in sviluppo o per quelli privati e protetti da password.

Risoluzione dei problemi di Site Audit image 3

Contatta l'Assistenza Semrush

Se hai ancora problemi con Site Audit, invia una e-mail a mail@semrush.com o contattaci al numero presente nel footer del sito web e spiegaci il tuo problema.

Visti di recente