immagine di sfondo articolo
Search Engine OptimizationSpiders tempo di lettura: 5 min

robots.txt: configurare l’azione degli spider

robots.txt: configurare l’azione degli spider
Sommario

È possibile guidare e limitare l'azione degli spider dei motori di ricerca sulle pagine del nostro sito internet mediante varie tecniche, strumenti utili all'attività del consulente SEO che effettua lavoro di ottimizzazione di un sito web per l'inclusione nei motori di ricerca.

Per intervenire in una singola pagina possiamo utilizzare il meta tag ROBOTS, ma per intervenire più globalmente (e per essere sicuri che il motore di ricerca NON scansioni il nostro sito) conviene utilizzare lo standard definito Robots Exclusione Standard che andremo ad analizzare nel dettaglio in questo articolo.

Il file robots.txt

Il file che guida l'esclusione degli spider dei vari motori di ricerca è robots.txt. Questo è un normale file di testo creato mediante text editor (mi raccomando al fine delle operazioni di editing va salvato con una qualunque codifica caratteri, non necessariamente la UTF-8 come per le sitemap, ma molto importante è la sua estensione: .txt) che raccoglie all'interno le istruzioni per impedire a tutti o a determinati spider l'inclusione nella serp di alcune o di tutte le pagine del nostro sito.

Il file, una volta creato, va posizionato on-line nella root (directory principale) del nostro sito internet. Nel nostro caso quindi il nostro file robots.txt avrà indirizzo https://www.posizionamento-seo.com/robots.txt.

I vari spider dei vari motori di ricerca (che aderiscono a questo standard sono i principali: Google, Yahoo e Bing) ogni qual volta accederanno al nostro sito web come prima azione cercheranno il file robots.txt e nel caso di sua presenza ne seguiranno le direttive per l'inclusione delle varie pagine.

Che cos'è il file robots.txt e a cosa serve? Aiuta a posizionare un sito o è il contrario? Condividi il Tweet

Come funziona robots.txt

La prima cosa da capire per poter procedere è che il file robots.txt serve ad escludere pagine o directory di pagine dall'azione di inclusione dei vari spider. Questo significa che la lista di pagine o directory presenti all'interno del file robots.txt sarà di quei contenuti che NON vogliamo vengano inclusi (e per questo che NON vengano scansionati) e presentati al pubblico mediante motore di ricerca.

Per intenderci potremo quindi inserire nel nostro file robots.txt le pagine di servizio del nostro sito (privacy, condizioni d'uso), le landing page o le pagine dedicate alle conversioni dei nostri form. Nel caso vogliate dare in pasto ai motori di ricerca tutto il vostro sito il file robots.txt non è necessario se non per segnalare la sitemap.

Come creare il file robots.txt e il suo contenuto

Il file robots.txt è formato da uno o più record (nota, annotazione). Per ognuno di questi record vengono segnalati due campi:

  • User-agent: per indicare a quale spider/robot andiamo a segnalare le seguenti direttive da utilizzare. La sintassi da utilizzare è il seguente: User-agent [duepunti] [spazio] [nome dello spider]
  • Disallow: per segnalare, al nostro spider identificato precedentemente con User-agent, quali directory e/o file non scansionare. Per questo record il formato da utilizzare è: Disallow [duepunti] [spazio] [nome del file / directory]

Un esempio, potrebbe essere:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

Ossia:

  • Riferisci a TUTTI (*) gli spider (User-agent)
  • di non scansionare le directory cgi-bin e tmp (disallow)

Nel caso volessimo specificare l'azione di non scansione solo allo spider di google per una determinata pagina dovremo andare ad inserire il seguente codice all'interno del nostro file robots.txt:
User-agent: googlebot
Disallow: /pagina-esempio.html

o nel caso di pagina presente sotto una determinata directory:
User-agent: googlebot
Disallow: /directory-esempio/pagina-esempio.html

Nel caso volessimo impedire a tutti gli spider di leggere tutte le nostre pagine (in caso di un sito di cui vogliamo nessuno conosca l'esistenza):
User-agent: *
Disallow: /

E come ultimo esempio il caso in cui vogliamo dire a tutti gli spider di non escludere nulla (molto utilizzato, per escludere singole pagine senza offrire informazioni agli utenti malintenzionati conviene utilizzare il metatag "noindex,nofollow")
User-agent: *
Disallow:

Modificando le regole all'interno del file robots.txt possiamo configurare l'azione degli spider Condividi il Tweet

Lista degli spider

Come abbiamo precedentemente visto è possibile escludere a determinati spider il recupero di determinate pagine o directory, ecco un semplice schema degli user-agent dei motori di ricerca, più utilizzati in Italia, per riferirsi a loro nel file robots.txt, per tutti gli altri vi rimando alla pagina presente sul sito user-agents.org. Consiglio però, per evitare errori, di fare esclusione di determinati spider solo dopo aver analizzato i dati di lettura da parte degli spider dei motori di ricerca mediante google analytics o software di analisi delle proprie pagine.

Motore di ricerca Robots Agent
Google googlebot
Google Image googlebot-Image
Google Mobile googlebot-Mobile
Bing msnbot

Sitemap, direttiva "Allow" e commenti

Ultime note sono alcune direttive particolari. E' possibile, infatti, direttamente nel file robots.txt segnalare il percorso in cui far recuperare al nostro spider la sitemap in xml del nostro sito. In questo caso è possibile inserire il record
Sitemap: http://www.sito-esempio.com/sitemap.xml

Mentre per quanto riguarda lo spider di Google è permesso oltre al record per disabilitare il recupero di determinate pagine un record (ma attenzione vale solo per il bot di Google!!) per permettere il recupero di determinati file o directory e la sintassi con cui segnarlo e l'opposta di Disallow e quindi: Allow. Per fare un esempio:
Allow: /directory-esempio/pagina-esempio.html

Attenzione al suo uso però, consiglio di utilizzare solo disallow per non incorrere in confusione e non ricevere penalizzazioni dai vari motori di ricerca.

E' possibile, per non smarrirsi nel caso di successi modifiche, inserire all'interno del file robots.txt commenti, ossia righe di spiegazione a ciò che abbiamo segnato nel nostro file. In questo caso per inserire commenti la notazione è la stessa degli script in Linux e quindi è sufficente anteporre alla riga che non vogliamo far processare il # come l'esempio a seguire:
User-agent: *
# Voglio che il mio sito sia indicizzato nel migliore dei modi
Disallow:

La direttiva Crawl-Delay

Alcuni spider dei motori di ricerca permettono di impostare la frequenza di scansione delle pagine del nostro sito web, in maniera tale da evitare un sovraccarico dell'host da parte dei bot.

In particolare è possibile indicare il numero di secondi che un crawler deve attendere prima di effettuare una nuova scansione.
#Fai effettuare una nuova scansione al bot di Bing ogni 10 secondi
User-agent: msnbot
Crawl-delay: 10

Googlebot, lo spider di Google, non rispetta questa direttiva e per questo è opportuno indicare solo ai bot specifici il comportamento da tenere e non sviluppare una regola generale.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Commenti

Rispondi 17-11-2015 12:02
Andrea
Ciao! Una domanda riguardo al robots.txt di un mio sito. Attualmente il file una volta scaricato tramite FTP si presenta così: User-Agent: * Disallow: Però, una volta raggiunto l'URL: www.esempio.com/robots.txt, visualizzo questo: User-Agent: * Disallow: Crawl-delay: 10 Anche all'interno della search console il file robots.txt viene visualizzato come sopra indicato. Andando a controllare, nuovamente, il file originale la riga "Crawl-delay: 10" non è presente. In internet non trovo nessuna pagina che ne parla. Hai qualche consiglio? Grazie!
Rispondi 17-11-2015 13:28
Pino
Ciao Andrea, la riga Crawl-delay: 10 permette di specificare la velocità con cui un motore di ricerca deve scansionare le pagine. Il 10 indica di scansionare a intervalli di 10 secondi i diversi contenuti riducendo l'impatto dello spider sulle performance del tuo host. Questo comando va usato nel caso di host non performanti e lenti. In più questo comando NON è interpretato dal crawler di Google, ma da quello di Bing si (riferimenti qui http://tools.seobook.com/robots-txt/). Prova a controllare se dagli strumenti >> modifica file di Yoast SEO lo visualizzi con la riga Crawl-delay. In questo prova a ricontrollare i file collegandoti via FTP, può essere che te abbia più file robots.txt e che ti stia riferendo a un file diverso. Fammi sapere come va!
Rispondi 17-11-2015 13:49
Andrea
Ciao Pino, ho controllato ciò che mi hai indicato. In "mofica file" il robots.txt risulta come da FTP: User-Agent: * Disallow: Ho trovato una pagina di un forum dove consigliavano che il problema potesse derivare da qualche plugin. Disattivati uno per uno ma la situazione non cambia.

RI.DO.PC. - P.IVA 10902370013

© 2013-2024 Tutti i diritti riservati