25 ottobre 2005
Dal lessicale al semantico; il futuro (incerto) dei motori di ricerca.


Oltre le parole, verso i concetti
Dunque “che fare”? Distruggere è più facile che costruire, ma non per questo dobbiamo accettare la scarsa qualità dei risultati di ricerca attuali; un’alternativa c’è ed è quella di passare da un motore di ricerca lessicale ad uno semantico; con questo non dico di ‘cassare’ la lessicalità dei motori, ma di dare la possiblità agli utenti di cercare anche ‘semanticamente’; spesso sentiamo parlare di “AI”, acronimo per “Artificial Intelligence” o di IR (Information Retrieval) o di: LSI e LSA (Latent Semantic Indexing, Latent Semantic Analysis); l’intelligenza artificiale non è altro che la possibilità per un essere umano di ‘dialogare’ con una macchina in una maniera ‘umana’ e la base per questo dialogo è la possibilità di fare corrispondere significati a significati, in una forma ‘semplice’) - singolo significato - e in una forma ‘complessa’ (tipicamente, una frase, con soggetto, predicato etc.). Attualmente, molti motori di ricerca ‘millantano’ la possibilità di rispondere a domande ‘umane’; per esempio, spesso si vedono degli adsense di Google (pubblicità testuali) in cui si leggono domande come “qual è la montagna più alta del mondo”, oppure “perché il cielo è blu” e cose del genere, dando l’impressione che il motore di ricerca ‘capisca’ che si tratti di una domanda e quale ne sia il contenuto; di fatto non è così, se si cliccano queste pubblicità, Google ‘lancia’ delle ricerche che sono tutt’altro che semantiche; in sostanza si tratta di successioni di parole che ’lessicalmente’ fanno visualizzare dei siti che le contengono e che non casualmente contengono la risposta alle domande visualizzate. Si tratta di un vero e proprio ‘trucco’; anche il miglior motore di ricerca attuale (Google) non è in grado di capire se una domanda è una domanda (non basta di certo il punto interrogativo), se una domanda è retorica, se è mal posta, se utilizza vocaboli stranieri e se è in sé contraddittoria: se cercate su Google con la keyphrase: “Perché il cielo è blu?” avrete una lista di siti che (affannati per riuscire ad attrarre click dai famosi banner di cui sopra) cercano di spiegare il fenomeno atmosferico; se però cercate “Perché il cielo è rosso” (visto che al tramonto spesso lo è) troverete una lista di siti ben diversa e che mostra come non ci sia affatto da parte del motore di ricerca la comprensione del fatto che l’utente sta cercando una risposta scientifica a una domanda banale. Provate a cercare la frase “quando è morto Kennedy?”, vedrete che non appaiono altro che pagine web che contengono proprio quella frase e che non contengono le informazioni alla domanda. E’ come se, cercando un ristorante cinese al telefono vi comunicassero il nome di un ristorante che si chiama “dov’è un ristorante cinese in zona Magenta?”. Inutile dire che il sistema attuale utilizzato non solo da Google (la matrice inversa per determinare il valore delle pagine web, che nulla a che fare ovviamente con la semplice attinenza) può essere facilmente ‘fooled’ con quello che viene definito ‘bombing’; notissimi sono stati i casi di ‘failure’, che su Google fa visualizzare in prima posizione il sito della biografia ufficiale di George W. Bush; qualche mese si fa si è fatto cenno a questi esempi per mostrare come il ‘sistema’ non sia ‘perfetto’, ma il sistema è tutt’altro che perfetto anche in tutte le ricerche dove non c’è stata una precisa volontà di modificare a proprio vantaggio i risultati di ricerca di un search engine; nel caso di “mazze da baseball” e “campioni di golf” non avevo nessuna intenzione di apparire ai primi posti con quelle keyword eppure tutto ciò è ‘naturalmente’ avvenuto.

Il Latent Semantic Indexing. Un passo importante verso la semanticità della ricerca.
Ho scritto già qualche articolo in merito al LSI (alias Latent Semantic Analysis), ma dirò subito che non intendo affatto entrare qui nel merito di dettagli tecnici, in quanto non sarebbero affatto utili a comprendere l’importanza di questa ‘via’ e complicherebbero inutilmente le cose; per riassumere il ‘cuore’ del LSI, potremmo dire che si tratta del tentativo di organizzare dei documenti (raccogliendoli appunto) con un’ottica semantica e con il minimo apporto ‘umano’, in sostanza facendo in modo che il ‘sistema’, la ‘macchina’, il ‘software’, una volta avute le ‘istruzioniì’ da un essere umano (o più probabilmente tanti esseri umani) possa autonomamente ‘capire’ di che cosa trattano i documenti raccolti (le pagine web non sono forse come dei documenti da raccogliere in una biblioteca), di ‘capirlo’ con una ‘mentalità’ umana e di fare sì che quando un uomo cerchi determinati ‘concetti/significati’ possa trovare dei documenti che vi siano attinenti, a prescindere dagli specifici termini utilizzati nella domanda. Il LSI funziona in maniera abbastanza semplice: in sostanza, durante la raccolta dei documenti vengono analizzati i termini che vi sono contenuti, non considerando dei termini (significanti) che sono ‘trasversali’ e che quindi non sono utili per determinare il ‘contenuto’ del documento (come ad esempio le preposizioni, gli avverbi o parole utilizzate comunemente in qualsiasi o nella gran parte dei documenti), non considerando spesso i suffissi dei termini, con un’operazione denominata “stemming” (in sostanza il termine “rivoluzionario” “rivoluzionarietà” e “rivoluzione” vengono ‘parificati’ nel termine ‘stemmed’ ‘”rivoluz”) e osservando e registrando quali sono le ‘vicinanze’ fra determinati termini; per tornare all’esempio del golf, poniamo che il LSI sia applicato ad un miliardo di documenti raccolti (i motori di ricerca attualmente ne indicizzano più di dieci volte tanti) e che in 1.000 di questi documenti appaia il termine Tiger Woods (il famoso campione di golf statunitense). Il ‘sistema’ riconosce che nel 90% dei casi in cui appare il termine “Tiger Woods” appaia anche il termine ‘golf’ e che nel 70% dei casi appaia il termine “campioni di golf”, questo ‘significa’ che Tiger Woods è ‘strettamente legato’ a “golf” e a “campioni di golf”; il sistema non può di certo sapere che Tiger Woods ‘è’ un campione di golf, ma può certamente capire che non ha a che fare con il marketing, con il web marketing o con il latent semantic indexing e questo perché nella grande ‘matrice’ che emerge dall’analisi semantica di tutti i documenti raccolti con il LSI i gruppi di parole “campioni di golf”, “golf” e “Tiger Woods” sono ‘lontani’ - la matrice può essere visualizzata tridimensionalmente come un ‘cubo’ che contiene dei ‘rami’ e dei fasci di rami più o meno vicini fra loro. Il fatto che siamo lontani non significa certo che non possano essere uniti nel medesimo documento (e l’esempio che abbiamo fatto sopra dimostra proprio che questo può accadere), ma significa anche a seguito di una ricerca per un semplice termine “Tiger Woods” i primi documenti che debbono essere visualizzati non sono di certo quelli che hanno a che fare con il marketing ma quelli che hanno a che fare con lo sport. Ciò dovrebbe impedire che i primi risultati di ricerca di un motore a seguito di una ricerca “campioni di golf”, oppure “comprare mazze da baseball” possa permettere la visualizzazione di articoli/pagine web che qualsiasi essere umano capirebbe trattare dell’argomento “golf” e “mazze da baseball” come “mezzo” e non come “fine” per utilizzare un’espressione squisitamente filosofica. E’ ovvio anche che questa è solo una semplificazione ‘brutale’ di come funzioni il latent semantic indexing e di come esso possa essere applicato ai motori di ricerca, ma è altrettanto evidente che la situazione attuale non è assolutamente soddisfacente per un mondo (come quello della web search) che da anni sta utilizzando le medesime tecniche utilizzate agli albori della wideness del web. Purtroppo noi ci troviamo ora in una situazione in cui qualsiasi cambiamento verso una dimensione semantica della ricerca in internet può essere male ‘accolto’ dagli stessi web surfers. Ormai, dopo anni d’utilizzo, i ‘web searchers’ sono abituati a cercare le informazioni in internet con una ‘forma mentis’ lessicale piuttosto che semantica; in sostanza, quando si cerca su un motore di ricerca si attiva una ‘modalità interrogativa’ radicalmente diversa da quella che utilizziamo durante la nostra vita normale, o quando chiediamo informazioni al telefono o quando cerchiamo un numero di telefono sulla guida telefonica o sulle pagine gialle. Quando cerchiamo con delle keyphrase abbastanza lunghe, siamo convinti di trovare risultati nelle cui pagine siano contenuti i singoli termini della frase e presupponiamo che i primi documenti siano quelli in cui questi termini siano i più vicini l’uno all’altro e che siano posti nella medesima successione: Quando cerchiamo “vincitore del torneo del maggior numero di tornei di Wimbledon” ci aspettiamo di trovare dei documenti (quindi pagine web) che contengano quella frase o ‘parte’ di quella frase o quella frase ‘leggermente’ modificata. Purtroppo, non tutte le pagine web che trattano di Pete Sampras sottolineano questo fatto o magari non contengono una frase simile; con un motore di ricerca squisitamente lessicale, è ovvio che il searcher non avrà mai la possibilità di trovare immediatamente quei documenti che invece trattano approfonditamente di Pete Sampras; mesi fa notai una cosa che mi lasciò molto stupito. Nella home page del sito ufficiale del più grande campione di golf vivente (Tiger Woods) non appariva una sola volta il termine ‘golf’; una cosa solo apparentemente strana perché in effetti si presuppone che chi legga il sito ufficiale di Tiger Woods sia senza dubbio a conoscenza che lo sport di Tiger Woods è il golf. Oggi le cose stanno diversamente. la parola golf appare, ma se cerchiamo su Google con il termine “Golf Champions” il sito ufficiale di Tiger Woods non appare nemmeno nei primi 100 risultati; e perché? Semplicemente perché questo sito non contiene la successione di termini “golf champions”; una cosa assurda da un ‘semantic point of view” mentre assolutamente corretta da un “lexical point of view”.


  Pagina: 1 - 2 - 3 - 4  
  SitoVivo - web marketing  
SEM | e-mail | design | mobile | banner | guerilla | naming | |
usabilità | affiliaton | strategia | tecnologia | miscellanea | e-commerce | chi siamo | contatti
 

Webmarketingstrategico e' un sito di SitoVivo S.r.l. via Filadelfia 162 - Torino - 011-19705358 - fondato da Federico Riva.