25 ottobre 2005
Dal lessicale al semantico; il futuro (incerto) dei motori di ricerca.


Google et alii stanno cambiando il nostro modo di scrivere?
Una caratteristica che dovrebbe essere fondamentale per qualsiasi strumento di ricerca e perciò per qualsiasi motore di ricerca è la sua capacità ‘eurisitca’. In parole semplici: un motore di ricerca non deve servire ‘solo’ per trovare qualcosa che si è ‘perso’ (di cui non si trova un sito o più siti di nostro interesse), ma dovrebbe servire anche per sapere e conoscere cose che prima non erano affatto conosciute. Se ricordo di avere visitato un sito che conteneva questa frase “to be or not to be is a stupid phrase” e non ricordo di che sito si tratti, probabilmente utilizzerò uno dei più famosi motori di ricerca inserendo nella relativa form proprio questa frase. Molto probabilmente, se la pagina in oggetto è stata indicizzata dal motore di ricerca, avrò la possibilità di ‘recuperarla’; lo stesso dicasi della dichiarazione di un Presidente o delle ultime parole di un grande scrittore. Ma questa è solo una piccola parte – e sicuramente la meno interessante – di un motore di ricerca; io ho lavorato tanti anni in una biblioteca; molti arrivavano cercando un libro ben preciso, forniti di titolo e autore, se bravi, anche della casa editrice e dell’anno di pubblicazione; in quei casi, la ricerca era molto facile; il libro o c’era o non c’era; e se c’era o non era in prestito o lo era. End of the story. Spesso però si presentavano persone che chiedevano dei libri che trattassero di determinati argomenti senza sapere chi fosse l’autore, quale fosse il titolo o addirittura se esistesse un libro del genere. A quel punto era il bibliotecario che, affidandosi alla famosa e internazionalmente utilizzata CDD (Classificazione Decimale Dewey), cercava di trovare qualcosa che rispondesse alle esigenze del ‘cliente’. In seguito mi venne affidato il compito, per una grande società di ricerche di mercato, di organizzare la biblioteca aziendale (composta di decine di migliaia di volumi) attraverso un ‘nuovo’ sistema; non la CDD, ma un sistema di categorizzazione e di archiviazione che sfruttava i principi del “Thesaurus”; dico ‘nuova’ perché in Italia, per lo meno quando mi rioccupai della cosa una decina di anni fa, non esistevano Thesaurus disponibili, mentre negli Stati Uniti e generalmente nei paesi anglofoni questo sistema di catalogazione era molto utilizzata; la catalogazione a thesaurus è molto semplice; il ‘bibliotecario’ analizza i volumi ad uno ad uno e gli attribuisce un numero (di solito sino a 20) di keyword (esattamente quelle che utilizziamo normalmente nei motori di ricerca). Per esempio, se ci trovassimo per le mani un manuale per imparare a suonare la batteria, potremmo inserire keyword come: “Manuali”, “Batteria”, “Strumenti a percussione”, “Musica” etc; colui che volesse poi cercare dei libri – in questa ‘biblioteca’ che trattano di questi argomenti potrebbe trovarli molto facilmente con il semplice utilizzo di queste parole-chiave. Ora, il sistema del Thesaurus potrebbe essere efficacemente applicato ai motori di ricerca; l’unico motivo per cui sarebbe molto stupido farlo è che comporterebbe un lavoro editoriale umano (si tratta infatti di pagine web e non solo di siti web) di decine di anni e di decine di migliaia di persone, difficilmente organizzabile, pagabile e comunque impossibilitate a ‘stare’ ai tempi dell’evoluzione del web e quindi della crescita del numero dei documenti che sarebbero indicizzati dai motori di ricerca (a prescindere da tutti i documenti che sfuggono per un motivo o per l’altro a questa indicizzazione). Il LSI non è altro che un’automatizzazione di questo sistema umano che si dimostra molto efficace per gruppi di pochi documenti (centinaia o migliaia) ma che rischia di franare sotto la mole di decine di miliardi di documenti.
Spero di avere ampiamente dimostrato che i motori di ricerca semantici sarebbero ben superiori (per certe funzionalità, soprattutto quelle squisitamente euristiche) a quelli lessicali (che dovrebbero comunque essere mantenuti in vita per svolgere sempre al meglio la loro funzione ‘semplificatrice’), ma vorrei sottolineare un fatto che a mio parere è molto grave, in merito alla situazione attuale. Infatti che cosa accade oggi a chi ‘scrive’ delle pagine web. Chiunque è consapevole che quello che scrive ha un valore se viene letto e che potrà essere letto da più persone quanto più sarà visibile nei motori di ricerca; quindi, di fatto, se chi scrive per il web è consapevole di tutto ciò che abbiamo detto sopra (e i cosiddetti ‘professionisti’ ne sono assolutamente consapevoli) è evidente che essi non potranno esimersi dal pensare a quali saranno le frasi o le parole con cui essi vorranno essere ‘trovati’ in fase di web searching. Che cosa significa? Che la lessicalità degli attuali search engine influenza tutti i testi che vengono scritti ‘per il web’; non solo i nomi a domini o di un sito sono scelti in ragione dell’indicizzazione dei motori di ricerca; non solo i titoli delle pagine sono scelti in ragione degli algoritmi dei motori di ricerca; gli stessi testi, i contenuti delle pagine sono pensati per contenere delle frasi-chiave che si suppone siano e saranno utilizzate dai searcher e per le quali si desidera apparire nella migliore posizione possibile (in breve: primi della lista). Ciò significa che gli editori della pagina biografica ufficiale di Tiger Woods sarebbero costretti a inserire (e a farlo più volte) la keyphrase “Campioni di golf” per riuscire a essere visualizzati nei primi posti a seguito di queste ricerche e non essere ‘superati’ da siti sicuramente meno a tema come quello dell’associazioni delle golfiste del Maryland (che invece contengono questo termine); una delle dimensioni aberranti della situazione attuale (che i motori di ricerca sono ancora esclusivamente lessicali) è che vengono addirittura distribuiti e pubblicizzati dei ‘tool’ (spesso disponibili gratuitamente online) che permettono di capire quale debba essere la “keyword density” di una keyword per fare si che essa sia considerata rilevante per il motore di ricerca; in sostanza, i motori di ricerca non solo non ‘capiscono’ di che cosa tratta il documento indicizzato, essi non sono nemmeno in grado di capire se il termine presente è importante all’interno del documento e quindi viene tutto ridotto a una mera questione quantitativa; pensate a un giornalista che scriva un pezzo sull’Iraq e che dovesse pensare a quante volte scrivere il nome Saddam Hussein per fare sì che il suo articolo venga letto… E’ evidente che si tratta di una situazione che non può assolutamente giovare alla qualità dei contenuti dei motori di ricerca; i motori di ricerca attuali (Google in primis) non solo stanno modificando il modo di ‘pensare’ dell’uomo in fase di ricerca (facendo così dell’intelligenza ‘naturale’ dell’uomo qualcosa di ‘artificiale’ e – in questo caso – ‘superficiale’), essi stanno anche riuscendo a modificare il modo stesso di scrivere, di produrre documenti e informazioni. Entrambe le cose, nate solo da una situazione di deficienza e di inedeguatezza dei motori di ricerca attuali – non solo è negativa in sé ma è anche un ostacolo al passaggio stesso da una situazione lessicale a una semantica.
Voglio terminare questa analisi della situazione attuale con un piccolo riferimento al Pagerank, termine utilizzato da Google ma di fatto sistema utilizzato (con altri nomi o senza alcun nome) da tutti i principali motori di ricerca attuali. Il pagerank è il ‘peso’ che una determinata pagina ha. In Google viene addirittura denominato (basta un mouseover sulla barretta verde) ‘indici di attinenza’; posto che non ha senso parlare di ‘attinenza’ di un documento se non si ha idea della cosa (concetto, situazione, etc) cui questa pagina debba attenere, è evidente che ultimamente il ‘peso’ (determinato come ben si sa dalla quantità e qualità delle pagine web che linkano una specifica pagina web) conta molto più dell’attinenza, ovverosia che la quantità conta più della qualità. Mi spiego meglio: posto che ha un senso considerare una pagina web ‘migliore’ di un’altra dal momento che è ‘citata’ (i.e. linkata) da più siti e ricordando comunque che questa ‘tattica’ ha dei grandi difetti, attualmente sia Google sia gli altri big player mischiano l’attinenza con l’importanza della pagina, producendo come risultato la visualizzazione nelle prime posizione (quelle maggiormente visualizzate dagli utenti del motore di ricerca stesso) di documenti che pur essendo meno attinenti per gli stessi algoritmi utilizzati dal motore (per criteri per quanto errati come quello della ’keyword density’) di fatto sono ‘preferiti’ ad altri documenti solo perché più ‘potenti’, ovverosia più linkati, linkati da più tempo, esistenti da più tempo (ecco perché Google è fondamentalmente conservatore e quindi radicalmente non innovatore). Il Google Bombing (fare apparire il sito di Bush in prima posizione con il termine ‘fallimento’) rappresenta non tanto il presunto fallimento di Bush quanto piuttosto il fallimento dei motori di ricerca e del più grande motore di ricerca che, avendo cercato e in parte modificato il modo ‘naturale’ di cercare e il modo ‘umano e culturale’ di scrivere e di organizzare un sito) si appella a una presunta ‘democraticità’ del Web per dire: ok, e allora quale dovrebbe essere il primo sito ad apparire? Domanda legittima solo se pensiamo che tutti gli algoritmi e sistemi utilizzati sino ad ora saranno visti fra qualche lustro all’interno di una fase decisamente ‘primitiva’ che negli ultimi anni sta perdendo tutto il suo fascino pionieristico per lasciare spazio solo a una grande frustrazione nel quotidiano utilizzo dei motori di ricerca.


  Pagina: 1 - 2 - 3 - 4  
  SitoVivo - web marketing  
SEM | e-mail | design | mobile | banner | guerilla | naming | |
usabilità | affiliaton | strategia | tecnologia | miscellanea | e-commerce | chi siamo | contatti
 

Webmarketingstrategico e' un sito di SitoVivo S.r.l. via Filadelfia 162 - Torino - 011-19705358 - fondato da Federico Riva.