5/01/2016 Ottimizzazione del sito 2 7614
robots.txt e Google: velocizzare il processo di analisi

John Mueller, il webmaster trend analyst di Google, ha rilasciato un commento sul forum di aiuto Webmaster Central del motore di ricerca spiegando come velocizzare l'analisi del file robots.txt di un sito web da parte degli spider del search engine più utilizzato al mondo.

Con Search Console possiamo velocizzare la scansione del file robots.txt da parte di #Google Condividi il Tweet

La notizia, utile per ogni consulente SEO, è stata resa pubblica a seguito di una risposta ad un utente che, sul forum di Webmaster Central, lamentava il non aggiornamento del proprio robots.txt a seguito di modifiche del file su un sito creato mediante la piattaforma gratuita per la realizzazione di siti web weebly.com, chiedendo come velocizzare questa azione da parte del motore di ricerca.

John Mueller, in risposta all'utente, ha scritto:

Si può utilizzare un piccolo accorgimento per forzare l'analisi dei cambiamenti nel file robots.txt (di solito lo facciamo, [intendendo “noi” come “Google” n.d.t.], circa una volta al giorno, a seconda del sito) utilizzando lo strumento Tester dei file robots.txt di Google Search Console. All'interno dello strumento vedrete la versione corrente conosciuta [di robots.txt n.d.t.], ed è possibile inviare il vostro nuovo file per nuova analisi, se hai apportato modifiche.
Per maggiori informazioni visita https://support.google.com/webmasters/answer/6062598

Come velocizzare il processo di analisi del file robots.txt

In sostanza per velocizzare l'analisi di robots.txt, da parte di Google, del nostro sito web è necessario accedere a Google Search Console, selezionare il sito su cui si vuole intervenire e aprire la pagina Scansione > Tester dei file robots.txt.

tester file robots.txt

A questo punto dobbiamo premere sul bottone invia, azione questa che farà aprire un popup dal seguente funzionamento:

invia robots.txt aggiornato

  • Scarica: con questo bottone effettueremo un download del nostro file robots.txt associato al nostro sito web. Effettuiamo le modifiche e carichiamolo nuovamente sul nostro sito, grazie ad una connessione FTP. Per gli utenti Wordpress che hanno installato Yoast SEO o All in One SEO Pack è possibile utilizzare le funzionalità integrate nei plugin per effettuare questa azione, cosa che però sconsiglio, in quanto preferisco avere sempre una copia dei miei file per tornare alla situazione precedente quando effettuo queste operazioni.
  • Visualizza versione caricata: una volta caricato il file modificato possiamo premere su questo bottone per vedere il contenuto del nuovo file robots.txt
  • Invia: premendo sull'ultimo bottone possiamo chiedere a Google di riconsiderare il file robots.txt, senza aspettare che la scansione automatica effettui la lettura del file.

Come deve essere un file robots.txt

Premesso che questa notizia è utile per casi davvero particolari di siti realizzati direttamente online, un file robots.txt deve essere il più semplice possibile, per evitare pasticci SEO, e deve offrire poche informazioni al motore di ricerca e a tutti quegli utenti/competitor che puntano il browser a questa risorsa sul dominio in analisi.

Per intenderci un file robots.txt dovrebbe essere più o meno così (ciò che viene scritto a seguito del carattere speciale # è un commento e serve in questo caso per spiegare le singole voci, ma si può tranquillamente escludere):

# mi rivolgo a tutti gli user-agent
User-Agent:*
# non leggere niente, o letta diversamente
# scansiona tutto
Disallow:

Perchè utilizzare direttive specifiche nel file robots.txt

Se vogliamo sviluppare un sito web su un host online è necessario, per evitare che venga indicizzata la versione di sviluppo, avvertire i motori di ricerca di non effettuare la scansione del dominio e per questo includere alcune direttive nel file robots.txt utili a questo scopo.

Stesso discorso per i software online come i gestionali in cui conviene bloccare l'azione di indicizzazione, per evitare che si possa trovare la pagina di login al software mediante ricerca su Search Engine, oltre a proteggere l'accesso possibilmente via filtro IP e richiesta di credenziali.

Ricordo però che è molto meglio utilizzare il metatag robots “nofollow, noindex”, direttamente nelle pagine da non far indicizzare, che utilizzare le regole all'interno del file robots.txt in quanto andiamo a fornire meno informazioni agli utenti malintenzionati.

Come impedire l'accesso ai motori di ricerca con Wordpress

Se vuoi evitare che i motori di ricerca indicizzino un tuo sito realizzato in Wordpress puoi utilizzare una impostazione che è raggiungibile da: Impostazioni > Lettura.
Spuntando la voce “Scoraggia i motori di ricerca ad effettuare l'indicizzazione di questo sito” a fianco della label Visibilità ai motori di ricerca.

wordpress esclusione motori ricercaQuesta azione aggiungerà il metatag “nofollow, noindex” a tutte le pagine realizzate mediante questo CMS.

In passato ho notato che una volta sbloccata l'impostazione, i motori di ricerca impiegavano più tempo a indicizzare il sito rispetto ad un sito pubblicato direttamente senza questa impostazione, quindi, pur se la velocità di analisi dei search engine potrebbe essere migliorata negli ultimi anni, ti consiglio di evitare di realizzare il sito direttamente sul dominio che ospiterà il website e di utilizzare un server dedicato a questo scopo.

pino

Nato con la passione per l'informatica da mamma Access e papà ASP nel 2002 rinnego repentinamente la mia paternità facendomi adottare da papà PHP e mamma SQL.
Allevo HTML e correlati fiori in CSS mentre vedo i frutti del mio orticello SEO crescere grazie alla passione e alla dedizione della coltura biodinamica; perchè il biologico è fin troppo artificiale.
Realizzo siti internet a tempo pieno, nei restanti momenti mi occupo di redigere articoli per questo sito e saltuariamente far esperimento nel mare che è internet.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *


Commenti
Rispondi 17-03-2019 03:56
Dardo
Complimenti per l'articolo! Una domanda: riguardo la voce “Scoraggia i motori di ricerca ad effettuare l’indicizzazione ...", quanto tempo intendi quando dici che i motori di ricerca impiegano più tempo a indicizzare il sito se la voce risulta spuntata? Perchè attualmente ho un sito in costruzione ed è ormai da più di un mese che ho spuntato questa voce... è un problema secondo te?
Pino
Rispondi 20-03-2019 11:32
Pino
Ciao Dardo, non è un problema se il sito si è indicizzato. Prova a usare il comando site:www.tuonomedominio.it su google e vedi che restituisce e se restituisce qualcosa. Per maggiori informazioni in merito ti consiglio di leggere un mio articolo al riguardo.
Approfondimenti correlati
Scopri di piùLeggi di piùScopri di più

Local SEO: usare Google My Business per ottimizzare la query research e la seo on-page

Da qualche mese a questa parte Google My Business (GMB) ha fornito la possibilità di comprendere per quali query la…

Scopri di piùLeggi di piùScopri di più

Yoast SEO 7: come risolvere il problema degli errori 404 dopo l’aggiornamento

Mi sono appena accorto di un simpatico scherzetto in cui in molti incapperanno a seguito dell'ultimo aggiornamento di Yoast SEO,…

Scopri di piùLeggi di piùScopri di più

Gli eventi SEO per il 2018

Allarme clickbait, in questo veloce post non vi descriverò quali sono tutti gli eventi legati alla SEO organizzati in questo…

Scopri di piùLeggi di piùScopri di più

Hai un form sul tuo sito? Chrome ti “invita” a passare a HTTPS

Per tutti i webmaster/SEO tornati dalle vacanze vi è una graziosa novità che potrete trovare tra i messaggi in Search…

Scopri di piùLeggi di piùScopri di più

Guida all’ottimizzazione dei link interni

I link interni, ovvero quei link che collegano tra loro le pagine dello stesso sito, costituiscono un elemento molto importante…

Scopri di piùLeggi di piùScopri di più

La keyword research: 7 regole per ottimizzare le conversioni

Al giorno d'oggi, un'efficace ricerca di parole chiave è un'abilità sempre più importante per i professionisti del marketing digitale. (altro…)