Cos’è l’indicizzazione di un sito web e come avviene

indicizzazione L'indicizzazione è quel processo che porta una pagina o un documento web ad essere presente nei database (indici) dei motori di ricerca. La maggior parte dei motori di ricerca usa 4 sistemi diversi per eseguire l'indicizzazione:
  1. mediante gli spider
  2. tramite una funzione del tipo Suggerisci (o Aggiungi) URL
  3. inserendo e segnalando una sitemap
  4. tramite il protocollo RSS
Gli spider sono dei software che setacciano la rete alla ricerca di contenuti da inserire nel proprio indice tramite i link che trovano. Per essere quindi inseriti nell'indice di un motore di ricerca basta avere un link che "punta" alla nostra risorsa web, che sia, ovviamente, a sua volta già indicizzata. La funzione di Aggiungi URL o Suggerisci URL è un modulo messo a disposizione degli utenti (o webmaster di un sito) per segnalare al motore di ricerca la presenza di un nuovo sito web. Basta segnalare la propria Home Page e il motore di ricerca penserà a setacciare il vostro sito web alla ricerca di pagine e documenti da includere nel proprio database. Le sitemap invece non sono altro che dei file scritti con Linguaggio XML che contengono la lista delle pagine presenti e indicizzabili sul vostro sito web. Questo è usato da quasi tutti i motori di ricerca in quanto, ultimamente, il Protocollo Sitemaps è diventato uno standard e può contenere diverse informazioni correlate ad ogni risorsa web, come la data dell'ultimo aggiornamento, frequenza tipica delle modifiche, gerarchia rispetto agli altri elementi del sito, ecc... Le sitemap possono essere anche generate in automatico e aggiornate ad ogni modifica del sito web con software specifici, in particolare esistono dei plug-in per i più diffusi CMS. Esistono molte controversie sull'uso costante di questo protocollo in quanto, se un file sitemap non risulta coerente con il contenuto presente sul vostro sito web, il motore di ricerca potrebbe penalizzare i vostri contenuti. Il protocollo RSS (Really Simple Syndication) è un sistema di fruizione di contenuti che permette l'aggiornamento in tempo reale solo quando ci sono novità. In pratica, attraverso l'uso di un software di lettura RSS, è possibile visualizzare (nella propria casella di posta, cellulare o altro) gli ultimi contenuti o novità inseriti in rete in base alle proprie sottoscrizioni RSS. Il vantaggio principale consiste nel non dover ogni volta consultare tutti i siti web per verificare gli eventuali aggiornamenti. Altri sistemi che Google utilizza sono la Google Toolbar che può segnalare allo spider un nuovo sito web appena messo online senza che venga segnalato dallo stesso webmaster. Un altro caso molto diffuso è quando si crea un sito web su un dominio acquistato da un precedente proprietario: Google infatti periodicamente controlla i suoi indici e verifica gli eventuali cambiamenti ed è per questo che, in tali casi, non è necessario segnalare la presenza del proprio sito web.

Articoli correlati