Dall’Enterprise data warehouse all’Extended data warehouse

17 Aprile 2012

Oggi c’è la necessità di estendere architetture, applicazioni e prodotti a tecnologie di nuova generazione, in modo da riuscire a supportare al meglio esigenze di business in costante cambiamento

by Colin White

Il concetto da cui vent’anni fa ha preso avvio l’idea del Data warehouse consiste nel raccogliere dati da una molteplicità di sistemi operazionali e procedere a un loro consolidamento in un unico data store aziendale affinché potessero essere fatte attività di reporting e analisi. I benefici promessi da un simile approccio erano i seguenti:

– ottenere una vista integrata dei dati operazionali, preservando qualità e integrità degli stessi;

– avere un archivio di dati per attività di analisi di ordine tattico e strategico;

– operare su un insieme di dati organizzati per essere utilizzati da utenti business in attività di reporting e analisi e non in un contesto di applicazioni operazionali;

– procedere ad attività di offloading di report e analisi da sistemi operazionali con l’obiettivo di aumentare le performance aziendali.

Promesse che per la maggior parte delle organizzazioni sono state mantenute. Eppure, in molte realtà, il concetto di un singolo Data warehouse aziendale non è mai stato compiutamente realizzato. Non solo, ma considerato il tendenziale aumento del volume di dati, la progressiva eterogeneità degli stessi e l’esigenza di migliorare l’agilità del business, il modello di un unico data store, indirizzato a compiti analitici e abilitante processi di decision making, è diventato nel tempo un obiettivo sempre più difficile da perseguire. Ciò non sminuisce l’importanza di un Enterprise data warehouse (Edw), indica però la necessità di estendere architetture, applicazioni e prodotti a tecnologie di nuova generazione, in modo da riuscire a supportare al meglio esigenze di business in costante cambiamento.

Le sfide al modello classico

Il problema maggiore di un Enterprise data warehouse è determinato dal tempo necessario per mettere a punto tutto ciò che serve per soddisfare nuove esigenze di business. Una prima criticità è rappresentata dai dati richiesti per attività di reporting e analisi, dati che per lo più risiedono in una molteplicità di sistemi sorgente e che presentano un indice di qualità molto povero. Ci vogliono tempo e risorse per modellare i dati, ripulirli, procedere a una loro integrazione e fare in modo che essi siano costantemente allineati al profilo di business. Il crescente numero di informazioni e la necessità di analizzare dati a bassa latenza rendono questi processi estremamente complicati e possono determinare costi non irrilevanti. Inoltre, occorre tenere presente che, qualora i dati riescano a essere trasferiti nel Data warehouse, l’analisi interattiva risulta spesso carente in termini prestazionali.

Bypassare l’Edw

La frustrazione causata dall’impossibilità nel soddisfare i requisiti di business nei tempi e nei modi adeguati ha innescato la ricerca di soluzioni alternative al Data warehouse tradizionale: fogli elettronici e personal database, data mart e accesso diretto a dati operazionali.

Laddove i volumi dei dati e latenza costituiscono dei problemi, i business group tendono a utilizzare delle appliance Rdbms analitiche, oppure lavorano con l’IT per incrociare processi analitici e processi business in modo che dati ed eventi possano essere analizzati in-motion nel loro flusso attraverso i sistemi operazionali. Per grandi volumi di dati multi-strutturati vengono impiegati sistemi relazionali (talvolta chiamati soluzioni NoSQL) come Hadoop MapReduce. Il risultato è che molte organizzazioni si ritrovano ad avere una quantità di soluzioni molto frammentata senza avere un governo efficace delle stesse. È una situazione insostenibile che esige nuove soluzioni.

Extended data warehousing

Le organizzazioni devono sviluppare un approccio pragmatico che possa trovare una coerenza tra soluzioni centralizzate e decentralizzate. Un possibile modo è fare evolvere l’attuale Enterprise data warehouse verso un ambiente di Extended data warehouse. L’obiettivo ultimo è supportare miglioramenti nelle tecnologie di elaborazione analitica e, nello stesso tempo, fornire un’infrastruttura integrata per gestire e analizzare un numero crescente di sorgenti di dati così come carichi di lavoro differenziati.

La creazione di un Extended data warehouse

Le componenti richieste a un Extended data warehouse dipendono dal tipo di elaborazione analitica che deve essere supportata. Per avere successo occorre che ciascun carico di lavoro sia associato alla componente che lo supporta al meglio, focalizzandosi non soltanto sulla selezione delle tecnologie.

I fattori più importanti da tenere presenti sono:

1 – Considerato il progressivo aumento dei volumi di dati e la loro eterogeneità è impossibile pensare di esercitare un controllo completo su ogni singolo dato. È quindi bene distinguere tra dati che devono essere assolutamente garantiti e conservati e dati che possono avere un utilizzo limitato nell’ambito del decision making. I dati finanziari, per esempio, dovranno essere strettamente controllati, mentre i dati per il marketing potranno soddisfare indici di qualità e sicurezza meno elevati. Le componenti che costituiscono un sistema tradizionale di Enterprise data warehouse hanno meccanismi di controllo più rigidi rispetto alle componenti di un Extended data warehouse, come per esempio accade per i sistemi non relazionali. È quindi importante che gli utenti business siano informati circa il livello di governance adottato in riferimento ai dati da loro utilizzati in processi di decision making.

2 – Le organizzazioni devono distinguere tra dati che possono e non possono essere consolidati in un Enterprise data warehouse. Le ragioni per escludere un loro consolidamento possono essere rappresentate dai costi, da requisiti di data latency, dalla presenza di grandi volumi di dati multi-strutturati o semplicemente perché non è richiesta una conservazione storica degli stessi. I fattori che possono influire in questa decisione variano da progetto a progetto, ragione per cui è bene che vi sia un confronto tra parte IT e business.

3 – Per i dati che possono essere consolidati in un Enterprise data warehouse è utile stabilire se tali dati possono essere analizzati nel Data warehouse stesso o se è meglio orientarsi verso un Data warehouse complementare, come un data mart o un appliance Rdbms. Una delle ragioni per effettuare l’off-loading dei dati è minimizzare la riduzione di prestazioni dell’Enterprise data warehouse, che potrebbe essere causata da carichi di lavoro analitici complessi, privilegiando invece per questi ultimi piattaforme che possono assicurare prestazioni superiori. Questo è vero soprattutto nel caso in cui si debbano sostenere specifiche attività di analisi interattiva.

4 – Per i dati che non possono essere consolidati in un Enterprise data warehouse è bene determinare il miglior approccio per filtrare e/o analizzare i dati:

– utilizzare un appliance Rdbms analitica;

– utilizzare un sistema non relazionale in grado di analizzare grandi volumi di dati multi-strutturati;

– analizzare dinamicamente i dati nel loro flusso attraverso processi di business operazionali;

– utilizzare un engine streaming/CEP per gestire elevati volumi di data stream.

L’approccio da seguire dipenderà dai volumi di dati (la dimensione dello storage e la frequenza di aggiornamento), dalla eterogeneità dei dati, (strutturati, multi-strutturati) e dalla complessità del processo analitico associato (complessità delle query, carico di lavoro, complessità dello schema dati, necessità di un caricamento dati concorrente, necessità di dati real time, batch o interattivi e così via).

5 – Indipendentemente dal luogo in cui i dati sono fisicamente archiviati, dovrebbe essere definita una vista standard e condivisa che possa essere utilizzata per attività di analisi. La tecnologia di virtualizzazione è uno dei modi per creare questo livello di semantica dei dati. Queste viste mettono infatti gli utenti nella condizione di non dovere necessariamente sapere dove essi si trovino. Forniscono inoltre un meccanismo per controllare e monitorare l’accesso ai dati. La virtualizzazione, infine, può anche essere utilizzata per accedere a una combinazione di dati, analitici e operazionali.

6 – Indipendentemente dal luogo dove i dati devono essere consolidati, all’interno di un Data warehouse o meno, i risultati dei processi analitici dovrebbero essere consolidati e pubblicati in un data store di workgroup attraverso un’interfaccia utente coerente come per esempio un portale informativo. Questo approccio dovrebbe essere utilizzato anche nel caso si preveda la migrazione di fogli elettronici e personal database in un ambiente di workgroup condiviso.

Conclusioni

Un’architettura tradizionale di Enterprise data warehouse non è adeguata per gestire grandi volumi di dati che presentano una costante dinamica espansiva e che sono caratterizzati da una forte eterogeneità. Non sono nemmeno adeguati per rispondere in modo efficace ai requisiti di business. Le organizzazioni devono quindi sviluppare un Extended data warehouse che permetta di immagazzinare, gestire e analizzare dati nel modo e nel luogo più opportuno coerentemente con una logica di business, esigenze di workload e contenimento dei costi.

L’Extended data warehouse permette alle organizzazioni di evolvere da un Enterprise data warehouse tradizionale a un ambiente di elaborazione analitica e di gestione dei dati flessibile, in modo da fornire prestazioni migliori, riduzione dei costi, time-to-value così come permettere una sua espansione per supportare la crescita futura.

———————————–

Colin White

È il fondatore di BI Research e presidente di Database Associates Inc. È conosciuto come un analista, educatore e scrittore nei settori del Data Management, Information Integration e tecnologie di Business Intelligence e di come possono essere usate per costruire lo Smart e Agile Business. Ha svolto consulenze per molte aziende in tutto il mondo ed è uno speaker abituale nei più prestigiosi eventi di IT. Ha scritto numerosi articoli sulle nuove tecnologie dell’informazione usate per creare benefici di business e collabora con le più importanti riviste tecniche basate su Web. Per dieci anni è stato chairman della Conferenza Portals, Content Management e Collaboration di DCI e di Shared Insight. È stato anche conference director di DB/Expo.

Colin White sarà per Technology Transfer a Roma il chairman di:
“International Data Warehousing and Business Intelligence Summit 2012” nei giorni 17-18 maggio 2012.

Dall’Enterprise data warehouse all’Extended data warehouse

TI PIACE QUESTO ARTICOLO?

WEB COVER

Data center, Mitsubishi Electric: «Partita strategica per l’Europa»

NovaNext, la rete che pensa il business