robots.txt e Google: velocizzare il processo di analisi

0
1052
robots.txt google

John Mueller, il webmaster trend analyst di Google, ha rilasciato un commento sul forum di aiuto Webmaster Central del motore di ricerca spiegando come velocizzare l’analisi del file robots.txt di un sito web da parte degli spider del search engine più utilizzato al mondo.

Con Search Console possiamo velocizzare la scansione del file robots.txt da parte di #Google Condividi il Tweet

La notizia, utile per ogni consulente SEO, è stata resa pubblica a seguito di una risposta ad un utente che, sul forum di Webmaster Central, lamentava il non aggiornamento del proprio robots.txt a seguito di modifiche del file su un sito creato mediante la piattaforma gratuita per la realizzazione di siti web weebly.com, chiedendo come velocizzare questa azione da parte del motore di ricerca.

John Mueller, in risposta all’utente, ha scritto:

Si può utilizzare un piccolo accorgimento per forzare l’analisi dei cambiamenti nel file robots.txt (di solito lo facciamo, [intendendo “noi” come “Google” n.d.t.], circa una volta al giorno, a seconda del sito) utilizzando lo strumento Tester dei file robots.txt di Google Search Console. All’interno dello strumento vedrete la versione corrente conosciuta [di robots.txt n.d.t.], ed è possibile inviare il vostro nuovo file per nuova analisi, se hai apportato modifiche.
Per maggiori informazioni visita https://support.google.com/webmasters/answer/6062598

Come velocizzare il processo di analisi del file robots.txt

In sostanza per velocizzare l’analisi di robots.txt, da parte di Google, del nostro sito web è necessario accedere a Google Search Console, selezionare il sito su cui si vuole intervenire e aprire la pagina Scansione > Tester dei file robots.txt.

tester file robots.txt

A questo punto dobbiamo premere sul bottone invia, azione questa che farà aprire un popup dal seguente funzionamento:

invia robots.txt aggiornato

  • Scarica: con questo bottone effettueremo un download del nostro file robots.txt associato al nostro sito web. Effettuiamo le modifiche e carichiamolo nuovamente sul nostro sito, grazie ad una connessione FTP. Per gli utenti WordPress che hanno installato Yoast SEO o All in One SEO Pack è possibile utilizzare le funzionalità integrate nei plugin per effettuare questa azione, cosa che però sconsiglio, in quanto preferisco avere sempre una copia dei miei file per tornare alla situazione precedente quando effettuo queste operazioni.
  • Visualizza versione caricata: una volta caricato il file modificato possiamo premere su questo bottone per vedere il contenuto del nuovo file robots.txt
  • Invia: premendo sull’ultimo bottone possiamo chiedere a Google di riconsiderare il file robots.txt, senza aspettare che la scansione automatica effettui la lettura del file.

Come deve essere un file robots.txt

Premesso che questa notizia è utile per casi davvero particolari di siti realizzati direttamente online, un file robots.txt deve essere il più semplice possibile, per evitare pasticci SEO, e deve offrire poche informazioni al motore di ricerca e a tutti quegli utenti/competitor che puntano il browser a questa risorsa sul dominio in analisi.

Per intenderci un file robots.txt dovrebbe essere più o meno così (ciò che viene scritto a seguito del carattere speciale # è un commento e serve in questo caso per spiegare le singole voci, ma si può tranquillamente escludere):

# mi rivolgo a tutti gli user-agent
User-Agent:*
# non leggere niente, o letta diversamente
# scansiona tutto
Disallow:

Perchè utilizzare direttive specifiche nel file robots.txt

Se vogliamo sviluppare un sito web su un host online è necessario, per evitare che venga indicizzata la versione di sviluppo, avvertire i motori di ricerca di non effettuare la scansione del dominio e per questo includere alcune direttive nel file robots.txt utili a questo scopo.

Stesso discorso per i software online come i gestionali in cui conviene bloccare l’azione di indicizzazione, per evitare che si possa trovare la pagina di login al software mediante ricerca su Search Engine, oltre a proteggere l’accesso possibilmente via filtro IP e richiesta di credenziali.

Ricordo però che è molto meglio utilizzare il metatag robots “nofollow, noindex”, direttamente nelle pagine da non far indicizzare, che utilizzare le regole all’interno del file robots.txt in quanto andiamo a fornire meno informazioni agli utenti malintenzionati.

Come impedire l’accesso ai motori di ricerca con WordPress

Se vuoi evitare che i motori di ricerca indicizzino un tuo sito realizzato in WordPress puoi utilizzare una impostazione che è raggiungibile da: Impostazioni > Lettura.
Spuntando la voce “Scoraggia i motori di ricerca ad effettuare l’indicizzazione di questo sito” a fianco della label Visibilità ai motori di ricerca.

wordpress esclusione motori ricercaQuesta azione aggiungerà il metatag “nofollow, noindex” a tutte le pagine realizzate mediante questo CMS.

In passato ho notato che una volta sbloccata l’impostazione, i motori di ricerca impiegavano più tempo a indicizzare il sito rispetto ad un sito pubblicato direttamente senza questa impostazione, quindi, pur se la velocità di analisi dei search engine potrebbe essere migliorata negli ultimi anni, ti consiglio di evitare di realizzare il sito direttamente sul dominio che ospiterà il website e di utilizzare un server dedicato a questo scopo.

LASCIA UN COMMENTO