Storia del file robots.txt: Robots Exclusion Protocol

wall e l La storia del Robots Exclusion Protocol (REP) inizia con l’introduzione del file robots.txt nel 1993. Il tutto anche grazie ad uno spider che intasava regolarmente il sito di chi sarebbe poi diventato l’ideatore del protocollo. Ecco la testimonianza dell’autore del file robots.txt, Charlie Stross:
“...nel lontano 1993 stavo insegnando Perl nel tempo libero (mentre lavoravo per una compagnia UNIX chiamata The Santa Cruz Operation) e stavo facendo pratica lavorando su uno spider. La mia attività di sperimentazione consisteva nel visitare continuamente il sito di Martin Kjoster’s, e gli impiegati di Martin avevano la linea di 14.4 Kbps intasata. Ovviamente Martin mi ha contattato dicendomi che non potevo impegnargli tutta la banda. Cercando insieme di risolvere il problema, alla fine lui è venuto con una semplice soluzione: “Cerca un file di testo chiamato robots.txt. Conterrà una lista di tutto quello che non devi leggere.” E così il mio spider ha obbedito all’embrione del protocollo di esclusione dei robots. Ah, bei tempi quando potevi casualmente diventare qualcuno inventando un nuovo protocollo prima di colazione...”
Nel 1994, il REP fu formalizzato con il consenso della comunità degli autori di spider. Originariamente, questo protocollo fu ideato semplicemente come meccanismo per impedire che risorse web specifiche venissero visitate da parte degli spider, ma nel tempo si è evoluto ed ora prevede anche regole per abilitarne esplicitamente l’accesso. Oggi, quando si parla di REP, ci si riferisce a molte cose: al file robots.txt, alle sitemap XML, ai meta tag robots, agli X-Robot-Tag e all’attributo nofollow dei link. Capire come funziona il REP è importante, visto che è un protocollo che ha molte implicazioni con la SEO. Duplicare contenuti, nascondere contenuti che non si vuole appaiano nei risultati di ricerca, ridistribuire in modo strategico i valori di PageRank e rimuovere le pagine dagli indici dei motori, sono solo alcune delle cose in cui il REP è utile. Il conformarsi alle regole del REP non è obbligatorio ed alcuni motori non lo fanno. I tre grandi della ricerca (Yahoo!, Google e Bing) hanno comunque deciso di supportare il REP in modo uniforme e coerente e partecipano attivamente all’evoluzione del protocollo. L’obiettivo è quello di implementare spider che si comportino in modo prevedibile, a vantaggio di tutti i webmaster.

Articoli correlati