Capitalizzare i dati. Gli strumenti per decidere

13 Maggio 2014

L’analisi dei big data offre innumerevoli potenzialità alle aziende di ogni settore, ma comporta il dover affrontare sfide importanti: gestire l’enorme mole di dati disponibili, le diverse tipologie di dati, l’integrazione con i propri sistemi. Tutte le ricerche testimoniano l’interesse crescente delle aziende in questa tematica

Ogni giorno viene gestita nelle aziende una mole di dati crescente, prodotta da un numero sempre maggiore di fonti informative: questo ha fatto maturare la consapevolezza di dover raccogliere e analizzare questi dati in modo efficace, per sfruttare al meglio il loro valore. Il risultato della collezione di queste informazioni sono i cosiddetti big data, archivi di grosse dimensioni nei quali: la quantità è tale da rendere inefficiente il ricorso a database tradizionali e da richiedere l’utilizzo di sistemi di memorizzazione scalabili; è elevata la frequenza di aggiornamento e la rapidità in cui sono memorizzati, storicizzati ed elaborati; le fonti sono molto eterogenee per origine, contenuto e rappresentazione.

Analytics e big data

Spiega Carlo Vercellis, responsabile scientifico dell’Osservatorio big data analytics & business intelligence (BDA & BI) della School of Management del Politecnico di Milano (www.osservatori.net): «L’analisi dei big data offre innumerevoli potenzialità a imprese di qualsiasi comparto. Ma la gestione delle enormi quantità di dati oggi disponibili pone le aziende di fronte a molteplici sfide. Da un lato, occorre predisporre i sistemi di analytics sui big data alla memorizzazione di volumi crescenti di informazioni e alla trasformazione e integrazione di dati di diversa natura. Dall’altro, occorre comprendere come sfruttare le potenzialità dei big data e farne un uso strategico in base alla propria tipologia di business. l progetti di BDA & BI richiedono una governance coordinata per permettere di raggiungere benefici quantificabili e di lungo periodo».

Oggi, le aziende hanno l’esigenza di analizzare scenari di business sempre più complessi, con strumenti in grado di dare risposte rapide e affidabili. Per questo si stanno diffondendo i progetti di big data analytics, indispensabili nel fornire un migliore supporto decisionale alle diverse funzioni aziendali, nonostante ci sia spesso una mancanza di consapevolezza dell’impatto di questi sistemi sulla gestione aziendale, e si percepisca una certa difficoltà nell’integrazione di questi strumenti con gli applicativi aziendali. La rapida diffusione degli strumenti di analisi è anche frutto di diversi fattori: la massiccia diffusione dei device mobili e del social networking, la disponibilità, a costi sempre più contenuti, di potenti tecnologie di elaborazione e di storage, i servizi flessibili e scalabili resi possibili dal cloud computing.

Il mercato

In un’analisi condotta da EMC (www.italy.emc.com) su 450 decision maker italiani, pubblicata nello scorso mese di novembre, i big data si posizionano come tecnologia ritenuta in grado di apportare un sensibile miglioramento ai processi decisionali delle aziende. Quasi il 40% degli intervistati dichiara che, grazie ai big data, la propria azienda è riuscita a ottenere significativi vantaggi competitivi sul mercato, rispetto ai concorrenti. Il 67% ritiene che le informazioni provenienti dai big data siano già oggi all’interno delle proprie aziende la base per prendere decisioni concrete per trasformare il business, mentre il 58% si dichiara convinto che le aziende che sapranno utilizzare al meglio questi strumenti saranno in grado di distinguersi maggiormente in futuro rispetto alla concorrenza.

La previsione di IDC (www.idc.com) per il mercato italiano è di un raddoppio del valore di tecnologie e di servizi per i big data nel periodo 2013-2015, che porterà il mercato a superare i 160 milioni di euro nel 2015. Il trend è in linea con i ritmi di sviluppo mondiali del mercato. A livello worldwide, il tasso di crescita annuale composto stimato da IDC per il periodo 2012-2017 è pari al 27%, con un valore al 2017 di 32,4 miliardi di dollari. Sempre secondo dati IDC, nel 2013 i server High Performance Computing (HPC ) avevano un valore di 11,397 miliardi di dollari: nello stesso anno, i server High Performance Data Analysis (HPDA) hanno avuto un valore complessivo di 785 milioni di dollari. I ricavi complessivi del mercato server a livello globale vedono crescere in modo costante i server HPDA (nel 2013 rappresentavano il 6,9% delle revenue globali dei server HPC, nel 2014 è previsto che la quota passi a 7,1%, entro il 2017 le proiezioni IDC lo danno al 9,2%).

Un patrimonio di dati

Alla fine dello scorso anno è stata pubblicata la ricerca dell’Osservatorio BDA & BI del Politecnico di Milano, molto completa e dettagliata, sulla realtà dei big data nel nostro Paese, aggiornata allo scorso anno, con raffronti interessanti sull’anno precedente. Secondo l’Osservatorio, all’interno delle organizzazioni, nell’84% dei casi vengono trattati dati strutturati, le cui sorgenti primarie sono tipicamente rappresentate dai sistemi transazionali, altamente performanti per la gestione di informazioni organizzate secondo schemi di database predefiniti: si tratta per lo più di tabelle, record e documentazioni di office automation, di dati geografici e di dati correlati a eventi come messaggi real-time, dati di telecomunicazioni e dati Machine-to-Machine, generati da trasmettitori, sensori (Wi-Fi, Bluetooth, RFID, NFC) e misuratori digitali. Nel 16% dei casi vengono gestiti dati semi-strutturati e destrutturati, ovvero informazioni prive di schema che non possono essere adattate a un database relazionale: si tratta di immagini, contenuti video, clickstream, file di testo, informazioni provenienti da blog e da social network, XML e standard simili, email, log web, per le quali esiste una struttura irregolare o parziale, non sufficiente a permetterne la memorizzazione e la gestione da parte dei DBMS relazionali tradizionali.

Il volume complessivo dei dati utilizzati nelle organizzazioni è cresciuto nello scorso anno del 19% per quanto riguarda i dati strutturati, del 28% per i dati destrutturati. Numeri che non sorprendono, se si considerano le fonti principali dei big data: le transazioni originate dai miliardi di dispositivi in uso dagli individui (smartphone, tablet, carte di credito, carte fedeltà, per fare solo alcuni esempi), i messaggi e le informazioni che vengono archiviati sui social network e sui siti web 2.0, i file e i log generati dai sensori digitali presenti negli oggetti che utilizziamo quotidianamente.

Secondo la ricerca Big Data Survey, pubblicata all’inizio anno e condotta nella community degli utenti di Jaspersoft (www.jaspersoft.com), le sorgenti di dati più utilizzate sono: i sistemi CRM (40%), le applicazioni finanziarie (38%), l’e-commerce (27%), i POS al dettaglio (15%), le soluzioni di supply chain management (14%) e i sistemi per la gestione del capitale umano (12%).

Le nuove architetture

«Osservando tutte queste nuove fonti di dati» – commenta Mike Ferguson, managing director di Intelligent Business Strategies Limited e speaker in corsi e convegni di Technology Transfer (www.technologytransfer.com) – è evidente che vi sia un aumento della complessità sia nelle caratteristiche dei dati stessi sia nei tipi di analisi che le aziende vogliono effettuare. Per quanto riguarda i dati, la complessità è aumentata in termini di varietà di tipi di dati, di volumi di dati che vengono acquisiti e nella velocità o nella frequenza con cui vengono generati i dati. In termini di varietà, stiamo trattando con dati semi-strutturati (per esempio email, XML, JSON), dati non strutturati (per esempio i testi) e dati generati dalle macchine (per esempio i dati dei sensori e i clickstream). L’analisi di questi tipi di dati ha portato a diversi nuovi tipi di carichi di lavoro analitici oltre a quelli osservati in un data warehouse tradizionale. Essi includono: l’analisi complessa di dati strutturati – per sviluppare modelli, l’analisi esplorativa dei dati multi-strutturati, non modellati, le interazioni sociali, l’analisi dei grafi, l’analisi dei social influencer o delle frodi…

Vi è anche una necessità di memorizzare e rielaborare dati archiviati a un costo molto inferiore. Per far fronte a questi carichi di lavoro, è chiaro che le architetture di data warehouse tradizionali avranno evoluzioni. Saranno necessari nuovi archivi di dati, come per esempio i Graph DBMS, Hadoop e gli RDBMS analitici, in aggiunta ai data warehouse tradizionali. Anche la gestione delle informazioni dovrà essere estesa, per supportare le funzioni di data cleansing, l’integrazione e il caricamento dei dati in queste nuove piattaforme, così come nei data warehouse. Inoltre, dovrà essere supportato anche lo spostamento dei dati tra le piattaforme. Dal punto di vista dell’utente, ora dobbiamo prepararci ad accogliere scienziati di dati, analisti di business e consumatori di informazione. Pertanto, sono necessari nuovi strumenti per condurre analisi esplorative dei dati multi-strutturati: search analytics, strumenti di generazione di codice, accesso a nuovi archivi di dati dagli strumenti tradizionali di BI estesa per fornire visualizzazioni. Inoltre, è necessaria la virtualizzazione dei dati per semplificare l’accesso ai dati per database basati su SQL e per sistemi non relazionali, su NoSQL».

Il Data Scientist

La capacità di esplorare enormi volumi di dati offre l’opportunità di sfruttare tutti i big data a disposizione e di diffondere la conoscenza a tutte le funzioni aziendali: si possono trovare nuove opportunità, dare risposte a problemi complessi e reagire rapidamente ai mutamenti del mercato.

Come ha detto Ferguson, il data scientist sarà una figura centrale nei progetti di big data, uno dei lavori più promettenti del futuro, con una domanda stimata di quasi un milione e mezzo di persone nel prossimo decennio e una carenza prevista di almeno 200mila persone. Aggiunge Alessandro Piva, responsabile della Ricerca dell’Osservatorio big data analytics & business intelligence della School of Management del Politecnico di Milano: «Oggi, esiste un’ampia offerta di sistemi di big data analytics e si è allargata la platea dei potenziali fruitori, grazie alla maggiore usabilità delle soluzioni tecnologiche e alla pervasività dei dispositivi mobili. Crescono così le possibilità di utilizzo e gli ambiti di progetto, e aumentano le competenze richieste a nuove figure di “data scientist”: non servono solo skill informatiche, statistiche e di processo, ma anche capacità di demand management nei confronti delle line of business, di interpretazione dei dati e delle analisi prodotte». Aggiunge Giulio Occhini, direttore generale di AICA, Associazione Italiana per l’Informatica e il Calcolo Automatico (www.aica.it): «Il data scientist deve essere in grado di vagliare attentamente le informazioni che giungono da fonti informative diverse, prima di decidere quali possano essere giudicate “utili” per le sue ricerche. Così come dovrà essere in grado di incrociare preliminarmente i dati in suo possesso (provenienti da molteplici fonti), con particolare attenzione a quelli che provengono dai social network, blog, web server, o dalle registrazioni online. Inoltre deve essere in grado di gestire dati di grande complessità (es. geospaziali), dovrà utilizzare algoritmi di ricerca, capaci di scandire immensi database di terabyte di dati in tempi relativamente brevi e dovrà anche essere in grado di selezionare lo strumento di business intelligence più adeguato, per eseguire le analisi richieste dall’organizzazione per la quale lavora. Anche se potrà sembrare apparentemente inconsueto, gli sarà anche necessaria una mentalità orientata alle arti e alla creatività, per fare in modo che possa elaborare visioni sulle metodologie di gestione intelligente delle informazioni e perfino sul loro possibile utilizzo per finalità diverse da quelle originarie. Se consideriamo come la necessità di consulenti di social media sia cresciuta con la diffusione dei social network, non c’è da stupirsi se nel giro di pochi anni, in funzione della attuale esplosione dei dati, il data scientist assumerà il ruolo di uno dei professionisti più ricercati al mondo. Apparentemente, le molteplici competenze dello scienziato dei dati potrebbero sembrare “eccessive”, ma contrariamente a quanto si può pensare, non è poi così difficile riuscire a identificare dei professionisti che ne siano in possesso. Infatti, va rilevato che lo scienziato dei dati deve soprattutto eccellere in alcuni aspetti caratteriali, come la creatività, la curiosità e la determinazione nel saper affrontare situazioni nuove e particolarmente complesse. Egli deve sentirsi ispirato all’organizzazione e alla distribuzione di informazioni trasformando i dati in valore».

Quali strumenti

Gli strumenti oggi più usati nella BI sono quelli per il performance management e per la basic analytics: consentono, però, solo di visualizzare in modo sintetico e grafico i principali indicatori di performance, rappresentando in modo tempestivo i dati con semplici funzioni di query e reporting. Gli strumenti più adatti per la gestione dei big data sono gli advanced analytics, che consentono di gestire processi decisionali complessi con sistemi di prescriptive e predictive analysis, come modelli matematici di forecasting, statistica, data mining e ottimizzazione, e che permettono di determinare trend e prevedere il valore futuro di variabili numeriche e categoriche. L’elevata numerosità dei campioni è più complessa da gestire, ma permette una maggiore accuratezza nei risultati. Secondo l’Osservatorio BDA&BI del Politecnico, i sistemi di advanced analytics sono adottati dal 36% delle organizzazioni, ma il 23% ne prevede l’introduzione e il 27% si trova in una fase di valutazione.

Diverse soluzioni sono presenti sul mercato: secondo IDC, tra le aziende con le migliori implementazioni commerciali delle piattaforme di HPDA/big data vi sono i grandi vendor, tra i quali IBM, Microsoft, Oracle, SAP, EMC, e un’ampia lista di attori specializzati a livello internazionale, tra i quali Autodesk, Cloudera, Microstrategy, QlikTech, SAS, Tibco, Teradata, Splunk MapR Technologies, Pivotal.

Ambiti di utilizzo

L’utilizzo degli advanced analytics sui big data ha innumerevoli potenzialità e svariate applicazioni. Secondo la già citata indagine Jaspersoft, le principali casistiche di utilizzo dei big data sono: l’analisi dei clienti (churn, segmentazione…), per il 48% degli intervistati, l’analisi della customer experience per il 45%, l’analisi dei rischi per il 37%, l’analisi delle minacce per il 30%, l’analisi della conformità normativa per il 28%, l’ottimizzazione delle campagne per il 26%, il targeting geografico per il 23%, l’analisi delle frodi per il 22%, l’analisi della percezione del brand per il 16%, l’ottimizzazione del product placement per il 16%.

Di seguito, alcuni esempi, non esaustivi, di come vengono sfruttati i big data nei vari settori di mercato. Nel settore bancario vengono utilizzati per progettare strategie di marketing, comprendere a fondo le esigenze dei clienti, migliorare la customer experience, ma anche per rispondere più velocemente alle richieste degli organismi di vigilanza. Nel risk management si sfruttano per ottenere risposte rapide a scenari complessi sull’ottimizzazione dei capitali, la gestione della liquidità, le valutazioni e gli stress test dei molteplici rischi cui un istituto potrebbe essere esposto. Nel settore assicurativo, per sviluppare modelli di prezzo più congruenti col profilo della clientela, per aumentare la profittabilità per prodotto e per migliorare l’analisi del rischio, limitando l’esposizione e le riserve. Nel manufacturing, l’analisi dei dati raccolti dai sensori consente di analizzare le prestazioni delle apparecchiature, svolgere manutenzioni preventive, ridurre i guasti imprevisti, analizzare i reclami in garanzia e identificare potenziali problemi e cause scatenanti. Nel retail, i big data sono utilizzati per analizzare le performance geografiche, per punto di vendita, linea di prodotto fino al carrello del singolo cliente. Nelle utility, si usano per tracciare l’erogazione di energia dal punto di distribuzione ai punti di utilizzo per identificare possibili frodi. La pubblica amministrazione può sfruttare i big data per realizzare una mappatura del territorio e offrire una assistenza migliore e tempestiva ai cittadini nelle aree più a rischio, per identificare e reagire in modo tempestivo al “sentiment” della comunità o ancora per accrescere il livello della sicurezza.

La Social analytics

Un utilizzo peculiare degli anaytics sui big data è legato all’analisi delle interazioni tra utenti, siti web, aziende e prodotti, che consente alle aziende di collezionare informazioni molto utili, prima difficilmente reperibili. La diffusione di dispositivi mobili sempre connessi genera, inoltre, un traffico sempre più geolocalizzato, che arricchisce ancora di più i dati a disposizione.

L’analisi di questi dati avviene con tecniche di text mining e di analisi semantica, in grado di rilevare il sentiment delle conversazioni e permette di definire le caratteristiche comportamentali dei clienti o dei prospect, di cogliere spunti per specifiche iniziative di viral marketing, e perfino di scoprire eventuali criticità nella pianificazione delle azioni promozionali.

Il monitoraggio dei social media permette di analizzare le preferenze e il gusto dei singoli utenti, di rilevare le opinioni relative a qualunque tema: prodotti, servizi, brand, ma anche hobby, politica, sport. Queste informazioni, se correttamente integrate con i dati presenti nei sistemi aziendali tradizionali, possono far sì che le imprese ottimizzino le proprie azioni di marketing: la social analytics, quindi, può creare nuovi, interessanti, scenari nella segmentazione della customer base di un’azienda, permettendo di cogliere sul nascere le nuove tendenze e di percepire con un certo anticipo l’abbandono di prodotti o di servizi specifici da parte dei clienti.

Capitalizzare i dati. Gli strumenti per decidere

TI PIACE QUESTO ARTICOLO?