File Robots.txt

Robots TXT

File Robots.txt: cosa è e come usarlo per la SEO

Il file robots.txt è uno strumento fondamentale per la gestione di un sito web. Si tratta di un semplice file di testo che contiene informazioni che vengono comunicate ai motori di ricerca. In pratica, con il file robots.txt si può decidere quali parti del sito web devono essere escluse dagli spider dei motori di ricerca.

Questo significa che il file robots.txt è utile per garantire la privacy del sito, evitare la duplicazione del contenuto e risparmiare risorse del server. Inoltre, grazie a questo file è possibile indicare ai motori che alcune pagine non sono pertinenti o non sono ancora pronte per essere visitate e analizzate. In sintesi, questo strumento è un’azione basilare per chiunque voglia migliorare l’indicizzazione del proprio sito web.

Solitamente alla fine del file robots.txt viene indicata l’ubicazione della sitemap.

A cosa serve il file robots.txt?

Il file robots.txt è molto importante in ambito SEO e serve a comunicare ai motori di ricerca quali pagine del sito web devono essere scannerizzate e quali no. In altre parole, il file robots.txt funge da mappa per gli elementi del sito web che non devono essere indicizzati da Google o altri motori di ricerca.

Ciò può essere utile per nascondere pagine interne di scarsa rilevanza o che potrebbero compromettere l’esperienza dell’utente, come ad esempio quelle sotto costruzione o di test, tramite l’utilizzo della direttiva disallow.

Inoltre, utilizzando il file robots.txt è possibile ridurre la pressione sul server del proprio sito web, limitare la scansione di sezioni del sito che non generano traffico o limitare l’archiviazione dei dati inutili da parte dei motori di ricerca.

Tuttavia, è importante fare attenzione alla corretta configurazione del file robots.txt in modo da non impedire l’indicizzazione di pagine importanti per la visibilità del proprio sito web. Un approccio corretto all’implementazione del file robots.txt può contribuire significativamente all’ottimizzazione del sito web per i motori di ricerca e migliorare il posizionamento sulle SERP.

Come viene utilizzato il file robots.txt dai motori di ricerca?

Il file robots.txt viene posizionato alla radice del sito web, al fine di agevolare la scansione dei motori di ricerca della struttura del sito. In questo modo, i motori di ricerca verranno indirizzati verso le pagine più rilevanti. Ad esempio, se una pagina non è più valida o non contiene informazioni rilevanti, è possibile escluderla dal file robots.txt. In questo modo, i robot dei motori di ricerca non dovranno visitare pagine senza valore aggiunto e saranno indirizzati verso le pagine più utili e utilizzate dagli utenti.

Esistono molti tipi di direttive robots.txt, l’obiettivo principale è quello di indirizzare il motore di ricerca ai contenuti ritenuti più importanti. È possibile anche impostare la frequenza di crawl delle pagine del sito e la velocità di scorrimento degli spider, in modo da essere certi che il sito sia sottoposto ai criteri di scansione specificati. Inoltre, il file robots.txt può essere utilizzato come strumento di sicurezza.

Metatag Noindex e disallow su robots sono la stessa cosa?

In breve la risposta è no. Tramite il metatag noindex si indica al motore di ricerca di non includere una pagina nel suo indice. Tramite il disallow su robots si dice al motore di ricerca che il crawler non deve scansionare quella sezione e/o url.

Se per esempio un url avesse un disallow da robots, ma venisse indicata nella sitemap, avesse link interni, o fosse linkata da siti esterni, questa potrebbe essere comunque indicizzata, se indicata con il disallow nel robots ma non avesse il metatag noindex.

Quali informazioni possono essere incluse nel file robots.txt?

Nel file robots.txt, gli amministratori di un sito web possono includere diverse informazioni che riguardano l’accesso ai suoi contenuti da parte dei crawler dei motori di ricerca.

Ad esempio, le istruzioni possono specificare quali pagine o cartelle del sito possono essere scansionate dai robot e quali invece devono essere escluse. Inoltre, è possibile definire il ritmo in cui i crawler possono accedere al sito, al fine di evitare un sovraccarico del server. Altre informazioni che possono essere incluse riguardano la durata di validità delle regole indicate, la priorità di indicizzazione dei contenuti e l’identificazione degli utenti che accedono al sito tramite i motori di ricerca.

Nel file robots txt è possibile per esempio indicare:

  • Indicazioni specifiche per uno user-agent, come Googlebot  di Google o Bingbot di Bing. Si possono dare indicazioni su quale sezione/pagina questo bot può scansionare o meno.
  • Tramite il disallow blocchi l’accesso dei crawler, ad una url, ad una sezione, o ad un pattern di url tramite espressione regolare (.*).
  • Tramite l’istruzione allow, permetti la scansione di una sezione. Per esempio se blocchi la directory pippo con “Disallow: /pippo/”, puoi permettere la scansione della sottodirectory pluto con l’istruzione “Allow: /pippo/pluto/”.
  • Può essere indicato il crawl-delay è una direttiva che indica agli spider dei motori di ricerca la velocità a cui devono esplorare il sito web.
  • Possono essere bloccati i bot di alcuni tool specifici, per esempio qualora il loro passaggio rallentasse troppo il sito web

Esempio Robots.txt

  1. User-agent: *
  2. Disallow: /pippo/
  3. Allow: /pippo/pluto/
  4. Sitemap: https://sito.com/sitemap_index.xml

Questo è un esempio di istruzioni del file robots.txt nel quale diciamo:

  1. Le istruzioni riportati di seguito sono valide per tutti gli user agent (*)
  2. Non scansionare /pippo/
  3. Puoi scansionare /pluto/ che sta sotto /pitto/
  4. La sitemap si trova qui

Per creare il file robots.txt è necessario utilizzare un semplice editor di testo, oppure utilizzare dei tool online.

Quali sono i vantaggi di utilizzare il file robots.txt?

Il file robots.txt è uno dei file più importanti da utilizzare per ogni sito web. Uno dei principali vantaggi nell’utilizzo di questo file è quello di controllare l’accesso dei motori di ricerca alle varie pagine del sito web.

Per siti di grandi dimensioni, per esempio, è utile per diminuire “la pressione” del crawler sul server. Indicando un disallow per esempio ad una sezione che non ci serve sia scansionata, possiamo risparmiare risorse.

Cosa succede se il file robots.txt è mal configurato?

Se il file robots.txt è mal configurato, possono verificarsi diversi problemi per la visibilità del tuo sito web sui motori di ricerca. Questo è perché il file robots.txt controlla i permessi di indicizzazione e l’accesso ai bot dei motori di ricerca ai contenuti del tuo sito.

Un file robots.txt mal configurato può impedire ai motori di ricerca di trovare e indicizzare le tue pagine, limitando così la tua visibilità online e il tuo traffico organico. Ad esempio, se hai accidentalmente bloccato l’accesso ai crawler dei motori di ricerca ai tuoi contenuti, questi non saranno in grado di accedere al tuo sito web e l’indicizzazione dei tuoi contenuti risulterà impossibile.

E’ importante inoltre, non bloccare ai crawler, l’accesso a tutte quelle risorse che generano il rendering della pagina: per esempio i css o i js.

Come testare il file robots.txt con uno strumento specifico?

Per effettuare il test del file robots.txt grazie alla Search Console, è necessario accedere alla bacheca apposita di Google e inserire l’URL del sito da testare.

Semplicemente, è necessario inserire l’url del tuo sito già verificato, per capire se sia permesso l’accesso al crawler.

Una volta caricato il sito sulla piattaforma, è possibile selezionare la sezione “File robots.txt” e rilevare le eventuali anomalie della configurazione. Gli strumenti di diagnostica messi a disposizione dalla Console permettono di individuare in modo preciso le sezioni del sito non indicizzabili dai motori di ricerca, evitando quindi il rischio di penalizzazioni per SEO. Grazie alla presenza di un’apposita interfaccia grafica, inoltre, la Search Console garantisce anche una facile gestione del file e la possibilità di effettuare eventuali modifiche in modo semplice e veloce. Oltre alla Search Console, esistono numerosi altri strumenti per testare il file robots.txt, come ad esempio Robots.txt Validator e Bing Webmaster Tools.

In linea di massima, tutti questi software si basano sui medesimi algoritmi per la diagnostica, valutando la presenza di eventuali problemi di configurazione del file e la corretta indicizzazione delle pagine. In conclusione, il test del file robots.txt è una fase essenziale per ottimizzare la SEO di un sito web e garantirne l’ottimizzazione sui motori di ricerca.