Sitemap e Robots.txt: cosa sono e perché sono importanti

Sitemap e Robots.txt: cosa sono e perché sono importanti

Due elementi utili ad ottimizzare il proprio sito e indicizzarlo al meglio

Quando si parla di siti web, spesso si pensa alla loro realizzazione grafica, a come possono catturare l’interesse dei navigatori, che in termini di tempo di permanenza online è sempre più basso, ma si tralasciano molti aspetti più tecnici. Tra questi, l’importanza del sitemap e del file Robots.txt. Partiamo da quest’ultimo: il Robots.txt è un file di testo che si trova nella directory principale del server di un sito. È un elemento estremamente importante perché viene utilizzato per fornire istruzioni sui contenuti del portale ai vari Web Robots, Crawler o Spiders, programmi utilizzati dai motori di ricerca per indicizzare il contenuto di un sito. Queste istruzioni sono chiamate “The Robots Exclusion Protocol”. Il file Robots.txt è pubblico ed è possibile accedervi digitando un URL come http://wwwmysite.com/robots.txt. Chiunque può vedere il contenuto del file e le posizioni a cui non si desidera che i robot web accedano. Ciò significa che il file non deve essere utilizzato per nascondere informazioni critiche sul portale.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Se non ci sono esigenze specifiche, non è obbligatorio avere il file robots ma, visto che può essere creato e implementato facilmente, vale la pena implementarlo anche per il solo fatto di poter controllare quali aree del sito sono accessibili ai motori di ricerca e quali no, cambiando tali impostazioni in ogni momento. Implementare il file robots e configurarlo in maniera adeguata e dettagliata diventa quindi fondamentale per l’ottimizzazione di siti, soprattutto quelli di grandi dimensioni, magari che usano url pensate per gestire filtri di pagina. Questi raggiungono facilmente un numero di pagine che è nell’ordine delle migliaia, delle quali molte non particolarmente significative per i motori di ricerca. Ma il file robots possiede anche altre importanti funzionalità, come la possibilità di indicare ai crawler dove si trova la sitemap.

Le sitemap forniscono ai motori di ricerca gli URL di un sito web e offrono una mappa completa di tutte le pagine di un sito. Questo aiuta i motori di ricerca a dare la priorità alle pagine di cui eseguiranno la scansione. Ci sono informazioni all’interno della mappa del sito che mostrano la frequenza di cambio di pagina su un URL rispetto ad altri su quel sito web, ma è improbabile che ciò abbia alcun effetto sulle classifiche dei link mostrati dai motori. Una mappa del sito XML è molto utile per i siti web di grandi dimensioni, che altrimenti necessiterebbero di un tempo prolungato affinché uno spider esegua la scansione, per aiutare i motori di ricerca a “conoscere” le pagine di un portale. Senza la sitemap, gli spider non sarebbero in grado di creare il menu completo delle pagine disponibili fino a quando non verrebbe completata una scansione dell’intero sito. E anche se Google, il più utilizzato fra i motori di ricerca, non ha mai confermato di basarsi sulle sitemap per indicizzare i contenuti sui propri database, è comunque un elemento che prende in considerazione perché utile a facilitare il lavoro di scansione in maniera più efficiente e ottimizzata. Una volta creato il file che contiene le istruzioni della sitemap, questo deve essere caricato nella cartella superiore rispetto a quella delle pagine indicate. Di solito, viene inserita direttamente nella root del sito. I modi per far sì che la sitemap venga analizzata dai bot dei motori di ricerca sono poi due: l’invio tramite Search console e l’inserimento all’interno del file robots.txt.

In sintesi, anche se non ci sono elementi definitivi sul fatto che avere una sitemap sia vantaggioso o meno per l’indicizzazione e il posizionamento online, la semplicità con cui può essere creata può rappresentare comunque un beneficio per la logica globale del sito. E questo è vero ancora di più se si gestisce un portale web con molte pagine, aggiornate di frequente e con menu articolati.

Attraverso l’uso di CDN è possibile tenere sotto controllo queste funzionalità cosi come altre.