E' possibile guidare e limitare l'azione degli spider dei motori di ricerca sulle pagine del nostro sito internet mediante varie tecniche, strumenti utili all'attività del consulente SEO che effettua lavoro di ottimizzazione di un sito web per l'inclusione nei motori di ricerca.
Per intervenire in una singola pagina possiamo utilizzare il meta tag ROBOTS, ma per intervenire più globalmente (e per essere sicuri che il motore di ricerca NON scansioni il nostro sito) conviene utilizzare lo standard definito Robots Exclusione Standard che andremo ad analizzare nel dettaglio in questo articolo.
Il file robots.txt
Il file che guida l'esclusione degli spider dei vari motori di ricerca è robots.txt. Questo è un normale file di testo creato mediante text editor (mi raccomando al fine delle operazioni di editing va salvato con una qualunque codifica caratteri, non necessariamente la UTF-8 come per le sitemap, ma molto importante è la sua estensione: .txt) che raccoglie all'interno le istruzioni per impedire a tutti o a determinati spider l'inclusione nella serp di alcune o di tutte le pagine del nostro sito.
Il file, una volta creato, va posizionato on-line nella root (directory principale) del nostro sito internet. Nel nostro caso quindi il nostro file robots.txt avrà indirizzo https://www.posizionamento-seo.com/robots.txt.
I vari spider dei vari motori di ricerca (che aderiscono a questo standard sono i principali: Google, Yahoo e Bing) ogni qual volta accederanno al nostro sito web come prima azione cercheranno il file robots.txt e nel caso di sua presenza ne seguiranno le direttive per l'inclusione delle varie pagine.
Che cos'è il file robots.txt e a cosa serve? Aiuta a posizionare un sito o è il contrario? Condividi il TweetCome funziona robots.txt
La prima cosa da capire per poter procedere è che il file robots.txt serve ad escludere pagine o directory di pagine dall'azione di inclusione dei vari spider. Questo significa che la lista di pagine o directory presenti all'interno del file robots.txt sarà di quei contenuti che NON vogliamo vengano inclusi (e per questo che NON vengano scansionati) e presentati al pubblico mediante motore di ricerca.
Per intenderci potremo quindi inserire nel nostro file robots.txt le pagine di servizio del nostro sito (privacy, condizioni d'uso), le landing page o le pagine dedicate alle conversioni dei nostri form. Nel caso vogliate dare in pasto ai motori di ricerca tutto il vostro sito il file robots.txt non è necessario se non per segnalare la sitemap.
Come creare il file robots.txt e il suo contenuto
Il file robots.txt è formato da uno o più record (nota, annotazione). Per ognuno di questi record vengono segnalati due campi:
- User-agent: per indicare a quale spider/robot andiamo a segnalare le seguenti direttive da utilizzare. La sintassi da utilizzare è il seguente:
User-agent [duepunti] [spazio] [nome dello spider]
- Disallow: per segnalare, al nostro spider identificato precedentemente con User-agent, quali directory e/o file non scansionare. Per questo record il formato da utilizzare è:
Disallow [duepunti] [spazio] [nome del file / directory]
Un esempio, potrebbe essere:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Ossia:
- Riferisci a TUTTI (*) gli spider (User-agent)
- di non scansionare le directory cgi-bin e tmp (disallow)
Nel caso volessimo specificare l'azione di non scansione solo allo spider di google per una determinata pagina dovremo andare ad inserire il seguente codice all'interno del nostro file robots.txt:
User-agent: googlebot
Disallow: /pagina-esempio.html
o nel caso di pagina presente sotto una determinata directory:
User-agent: googlebot
Disallow: /directory-esempio/pagina-esempio.html
Nel caso volessimo impedire a tutti gli spider di leggere tutte le nostre pagine (in caso di un sito di cui vogliamo nessuno conosca l'esistenza):
User-agent: *
Disallow: /
E come ultimo esempio il caso in cui vogliamo dire a tutti gli spider di non escludere nulla (molto utilizzato, per escludere singole pagine senza offrire informazioni agli utenti malintenzionati conviene utilizzare il metatag "noindex,nofollow")
User-agent: *
Disallow:
Lista degli spider
Come abbiamo precedentemente visto è possibile escludere a determinati spider il recupero di determinate pagine o directory, ecco un semplice schema degli user-agent dei motori di ricerca, più utilizzati in Italia, per riferirsi a loro nel file robots.txt, per tutti gli altri vi rimando alla pagina presente sul sito user-agents.org. Consiglio però, per evitare errori, di fare esclusione di determinati spider solo dopo aver analizzato i dati di lettura da parte degli spider dei motori di ricerca mediante google analytics o software di analisi delle proprie pagine.