FOCUS – Business intelligence e analisi testuale

focus
Il rapporto tra dati testuali e dati strutturati e le modalità che consentono di utilizzare logiche relazionali
(seconda parte)


Nella prima parte dell’articolo, pubblicato sul numero di maggio, si è parlato delle opportunità che offre l’analisi testuale rispetto a una semplice analisi dei dati numerici e di come questa tecnica possa garantire vantaggi superiori alle prestazioni offerte dai motori di ricerca standard. Si è descritto il processo di integrazione dei dati e le diverse forme attraverso le quali poterlo esercitare nonché le differenti tipologie di ricerche che possono essere applicate. In questa seconda parte si prende in esame il rapporto tra dati testuali e dati strutturati e le modalità che consentono di utilizzare logiche relazionali.


Relazione tra diverse tipologie di dati


Una forma di analisi testuale dei dati è quella che mette in relazione dati testuali a quelli strutturati. I dati anagrafici di un cliente possono per esempio essere messi in relazione con il testo riguardante comunicazioni effettuate dallo stesso attraverso posta elettronica. Nel momento in cui l’informazione testuale si fonde con quella strutturata è così possibile ottenere una fotografia a 360 gradi del cliente. Detto in altro modo, quando un’organizzazione dispone unicamente di informazioni anagrafiche difficilmente riesce ad avere una vista a 360 gradi del cliente. È quindi evidente il beneficio di avere una correlazione di entrambe le fonti informative.


Visualizzazione testuale


Altro caso di analisi testuale di grande utilità è quella della visualizzazione del testo. In questo caso, il testo integrato viene inglobato e clusterizzato con l’obiettivo di trovare correlazioni e relazioni tra parole e frasi.


Di fatto tale metodo consente di avere una mappatura del testo che risiede in vari documenti. Le diverse occorrenze vengono integrate e poi spostate in un’area di lavoro dove il testo viene successivamente clusterizzato secondo una logica a temi. La forma in cui viene visualizzato il testo è chiamata Som, o Self organizing map.


Il clustering dei dati di un Som si presta a molti utilizzi. Tra questi:


–          identificazione della correlazione tra dati


–          identificazione dei temi più trattati


–          organizzazione dei dati in modo che i temi più importanti siano immediatamente visibili.


I Som possono essere creati partendo sia da grandi sia da piccoli volumi di dati. Non solo, i Som possono essere utilizzati per avere una vista complessiva dei documenti. Il numero di documenti da trattare attraverso procedure Som può arrivare anche al migliaio.


Da tutti questi esempi ci si può quindi rendere conto di quanto l’analisi testuale sia molto diversa dall’elaborazione praticata di un motore di ricerca e di quanto essa possa essere molto più efficace e dettagliata.

Leggi anche:  Velocità e qualità del software. Tutta la verità sulle pull request, quando hanno senso e quando no

Colmare il gap


Uno degli aspetti chiave per creare un efficace ambiente di analisi testuale è essere in grado di accedere a dati non strutturati attraverso una modalità strutturata. In altre parole, se si vuole utilizzare Business Objects o Cognos per il trattamento di testi non strutturati si devono porre i dati non strutturati in una forma coerente con la logica propria di Business Objects o Cognos. Ciò significa che i dati non strutturati, una volta integrati, devono essere ristrutturati in un formato relazionale. In altre parole esiste la necessità di portare l’informazione testuale in una forma strutturata che consenta di creare campi relazionali riconoscibili in una forma prevedibile dagli strumenti utilizzati.


Come esempio di un processo di creazione di un record strutturato, a partire da una base testuale non strutturata, si può pensare ai dati relativi a una visita medica di un paziente. Il software di base trasforma i dati in una struttura coerente con un processo di tipo analitico. Il testo non strutturato viene quindi trasformato in un formato relazionale. Una volta che i dati non strutturati sono stati convertiti in un formato relazionale si può procedere a utilizzare uno strumento analitico di tipo standard. Vi sono comunque alcune sottigliezze che, pur essendo importanti, non appaiono né immediate né ovvie a tutti. Considerate cosa accade quando più di un record viene convertito in un formato relazionale.


Dati testuali integrati in database relazionale


Il primo passo da compiere per procedere all’integrazione dei dati testuali in forma analitica è creare l’infrastruttura che serve a supportare l’analisi testuale. Una volta compiuto questo passaggio occorre farne buon uso. Ipotizziamo che vi sia un database relazionale creato a partire da un testo non strutturato e che il testo sia stato integrato. Il database, essendo di tipo relazionale, può essere acceduto attraverso tool analitici standard come Business Objects, Cognos, MicroStrategy, Crystal Reports e altri. L’accesso al database avviene attraverso un linguaggio SQL standard.


Vi sono alcuni modi fondamentali cui si può accedere ai dati e sono:


–          Ricerca semplice. Si sottomette una parola o frase con cui analizzare il database. Prendiamo per esempio la parola “water” Una ricerca di questo tipo troverà le diverse occorrenze del termine.


–          Ricerca semplice di un testo che racchiude una determinata parola (in gergo chiamata snippet, come abbiamo visto nella prima parte dell’articolo). Si prenda come esempio sempre la parola “water”, acqua. Una ricerca di contesto individua il testo prima e dopo la parola ricercata. Supponiamo che il contesto di ricerca sia stato fatto per la parola “water” , i risultati potrebbero essere:  “…she held the Waterford crystal in her hands…”; “…the football players welcomed the waterboy, as Gatorade was passed…”; “…was it a mirage or real water? He couldn’t see beyond the…”.

Leggi anche:  Il futuro del data management. Trattare i dati come prodotto per sbloccare il pieno potenziale

–          Ricerca indiretta. La ricerca è fatta prendendo in considerazione oggetti che appartengono a una classe o categoria di informazioni.


–          Ricerca di prossimità tra diverse parole. In questo caso se le parole da ricercare sono “water” e “television”, in un range di 200 byte l’una dall’altra, il risultato potrebbe essere: “…Waterworld was advertised on television last night…”; “…she spilled water on the television set accidentally…”.


–          Ricerca di parole alternative. Per esempio trovare i punti del testo in cui è menzionato “osama bin Laden” tenendo conto delle possibili alternative ortografiche, anche sbagliate: “…lead me to Usama bin laden or else…”; “…huddled in a cave, Osama ben ladeen drank tea and said prayers…”; “…the Muslims adore Abu ben laden, more every day…”.


Quelle descritte sono solo alcune delle forme analitiche che possono essere utilizzate facendo riferimento a dati non strutturati che sono stati immessi in un database relazionale.


Analisi testuali possono essere eseguite sia su grandi volumi di documenti sia su singoli documenti. L’analisi testuale può essere semplice tanto quanto la ricerca di una singola parola oppure più complessa analizzando intere categorie associate a parole o frasi, così come prendendo in considerazione snippet, ovvero il testo che racchiude uno specifico termine.


Value proposition


Quindi, quale vantaggio esiste nell’applicare un’analisi testuale? In generale si può affermare che un’infrastruttura integrata di dati non strutturati, posta in un database e acceduta attraverso tool analitici, dà all’azienda un’opportunità inedita nel cogliere il potenziale informativo contenuto in un ambiente testuale. Opportunità che prima non esisteva. In definitiva i responsabili decisionali hanno la possibilità di porre domande che una volta non erano possibili. Ecco nel seguito esempi delle possibili domande che possono essere poste in un contesto di analisi testuale relativamente alle diverse aree di attività aziendali.


Email/call center administration


Quanti sono i clienti insoddisfatti? Perché sono insoddisfatti? Chi sono? C’è un tema ricorrente o prodotti che sono associati ai clienti insoddisfatti?


Qual è il tasso delle comunicazioni dei clienti insoddisfatti? Sta aumentando o diminuendo?


Vi sono clienti interessati nei prodotti “xxxxx” o nei servizi “yyyyy” ?


I clienti che sono soddisfatti comunicano con l’azienda? Se sì, in quali prodotti o servizi sono interessati?


Quale risposta c’è stata in relazione a una specifica promozione?


Gestione delle garanzie


Nel corso degli ultimi tre anni vi sono stati modelli significativi nell’esercizio delle garanzie? Dei punti di debolezza? Nel tipo di clienti che si sono avvalsi della garanzia è possibile ravvisare una stagionalità del fenomeno?

Leggi anche:  Breve storia dell’ingegneria dei dati. Linguaggi di programmazione e terreni minati

Vi sono prodotti o sotto prodotti che rappresentano delle eccezioni?


Vi è visibilità di un particolare insuccesso?


Il tipo di modello o prodotto crea differenze nelle garanzie esercitate?


Vi è un particolare modello su cui i clienti hanno esercitato i diritti di garanzia?


È ravvisabile un particolare tipo di guasto?


Qual è il tipo di lamentela più comune?


Gestione della sanità


Quali sono le correlazioni tra le diverse malattie?


Quali sono i sintomi che emergono in relazione a una certa patologia?


Vi sono casi in cui condizioni relative ad attacchi di cuore coesistono con presenza di cancro al fegato?


Qual è il contesto medico rispetto a tutte le occorrenze di fumo di sigarette?


Quanti sono i pazienti che da un punto di vista generale possono essere classificati come pazienti sani?


È possibile mostrare tutte le referenze testuali in merito alle persone sovrappeso?


Ambiente scientifico


È possibile compiere una ricerca documentale che produca una lista che contenga i dati relativi al punto di ebollizione e fusione di tutti i prodotti citati nei documenti?


È possibile trovare tutti i riferimenti delle sostanze il cui punto di fusione sia maggiore o uguale a 120 gradi centigradi?


È possibile trovare tutti i casi in cui la parola carbone è associata a benzene?


In sintesi


Il presente articolo ha trattato dell’integrazione testuale e della Business intelligence associata all’analisi testuale dei dati. I dati grezzi, come ampiamente spiegato, devono poter essere integrati. È un processo che presenta molte sfaccettature e molte opportunità. Una volta integrato, il testo viene posto infine in un database relazionale il cui contenuto può essere acceduto e analizzato attraverso tool standard di Business intelligence.


L’analisi può essere configurata in molte forme. Eccone in breve alcune delle più comuni:


–          visualizzazioni, attraverso Som dove è stato clusterizzato il testo integrato


–          ricerche semplici di testo integrato


–          ricerche basate su snippet


–          ricerche per categorie di testo


–          ricerche di parole in prossimità tra loro


Bill Inmon


Esperto rinomato in tutto il mondo, speaker e autore di Data Warehousing, è riconosciuto internazionalmente come “il padre del datawarehousing”. è anche il creatore della Corporate Information Factory e più recentemente della Government Information Factory. Ha più di 35 anni di esperienza nella tecnologia database. Come autore, Inmon ha scritto più di 650 articoli tecnici e 46 libri tradotti in molte lingue. Fa consulenze per molte importanti aziende offrendo servizi di Datawarehouse design e di Database management.


Lo scorso maggio ha presentato a Roma per Technology Transfer il seminario “Costruire il Data Warehouse Testuale”.