La ricerca perfetta

Vuoi una risposta, non miliardi di pagine web. Gli algoritmi sono programmi informatici che cercano indizi per restituirti esattamente ciò che desideri.

 Per una normale ricerca esistono migliaia, se non milioni, di pagine web con informazioni utili. Gli algoritmi sono i processi informatici e le formule che trasformano le tue domande in risposte”.

Come fa Google a “trasformare le domande in risposte” in modo così efficace e veloce? Un tempo fare una ricerca su Internet significava scorrere pagine di risultati, effettuare una “ricerca nella ricerca” come fossimo in biblioteca. Le cose sono cambiate, Google si è evoluto e fa il lavoro sporco al posto nostro: mai più seconda pagina di ricerca, la risposta è tra i primi tre risultati proposti.
Proviamo ad immaginare Google come un grande libro, con un indice estremamente ampio e dettagliato. Ogni volta che formuliamo una ricerca, Google consulta velocemente il proprio indice, fa una selezione delle informazioni e ci ripropone – filtrate – solo quelle affini alla nostra richiesta (detta “query”).
Senza questo filtro gli utenti rimarrebbero ogni volta intrappolati nell’infinita rete informatica; sono infatti miliardi i contenuti presenti nel web e tutti potenzialmente utili, ma ad una richiesta specifica ci aspettiamo anche una risposta specifica e immediata. Invece di analizzare noi, pagina per pagina, per vedere se le informazioni ci soddisfano, lasciamo che sia Google a farlo.

IDI_015B

Ma come struttura il proprio indice questo motore di ricerca? Come prima cosa utilizza tre processi: scansione, indicizzazione e pubblicazione.
Attraverso un enorme quantità di server (enormi “data center” pieni di computer sparsi per il mondo, vere e proprie “fabbriche” virtuali) vengono recuperati – scansionati – miliardi di pagine web ed è Googlebot ad occuparsi di questa operazione: con un processo algoritmico determina i siti da scansionare, la frequenza con cui farlo e quante pagine recuperare per ogni sito. Questa operazione, effettuata tramite due tipi di scansione periodiche del web – Deep-crawl (“scansione profonda” mensile) e Fresh-crawl (“scansione fresca” settimanale) –  permette di rilevare pagine nuove e aggiornate da poter aggiungere all’indice di Google. Quindi si passa al processo di indicizzazione vera e propria: Googlebot elabora ogni pagina scansionata e compila un enorme indice di tutte le parole individuate e delle relative posizioni che queste occupano all’interno delle pagine. Elabora anche le informazioni racchiuse nei tag dei contenuti chiave e negli attributi.
Quando un utente effettua una ricerca, Google, grazie ai dati memorizzati, cerca le pagine corrispondenti nell’indice e restituisce, in brevissimo tempo,  i risultati ritenuti più pertinenti. La rilevanza viene stabilita tramite diversi fattori, tra cui il PageRank che una specifica pagina possiede. Il PageRank è un algoritmo di analisi che quantifica i link ipertestuali che rimandano ad una specifica pagina e in base a questo ne stabilisce l’importanza all’interno del web. Ogni volta che un sito rimanda un link ipertestuale ad un altro sito è come se stesse dando a quest’ultimo un “voto”. Ma il voto ha un “peso”, uno non vale uno: a seconda dell’importanza della pagina linkante, il voto assume più o meno valore. Ad esempio Wikipedia avrà maggiore autorevolezza di Fragolina84 nell’esprimere questo voto. L’algoritmo di pageranking tenta quindi anche una valutazione qualitativa del conteggio, a differenza del suo predecessore Link Popularity che si limitava ad un semplice conteggio quantitativo. Il PageRank stabilisce quindi che più una pagina web è stata linkata e cliccata, più autorevolezza guadagna agli occhi di Google e più importanza avrà il suo “voto”.

LPP_021

Il calcolatore algoritmico, in poche parole, valuta la popolarità delle pagine web e insieme agli altri due processi – scansione e indicizzazione – stabilisce la loro posizione nei risultati di ricerca. Quindi quando inserisco una parola chiave nel motore di ricerca, i risultati ottenuti non tengono conto unicamente della corrispondenza semantica tra la mia parola chiave e le parole chiave contenute nei siti, ma anche della popolarità che questi si sono “guadagnati”.

Questo filtro ha però un preoccupante effetto collaterale: se da un lato garantisce risultati affidabili, pertinenti e veloci, dall’altro inevitabilmente crea una sorta di “bolla di pertinenza”, un circolo vizioso di rimandi tra siti ritenuti autorevoli; se i primi risultati proposti provengono sempre dalle stesse fonti, saranno molto probabilmente i più visitati e linkati, guadagnando ancora più autorevolezza.
L’effetto bolla richiama quindi concettualmente ad una sorta di effetto censura: un sito che per svariati motivi non avesse raggiunto autorevolezza agli occhi di Google, non verrà proposto come “risposta pertinente” alla ricerca e sarà quindi, in quanto non degno della “prima pagina”, relegato nell’infinito marasma di risultati che nessuno leggerà mai.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

Blog su WordPress.com.

Su ↑

%d blogger hanno fatto clic su Mi Piace per questo: