Verso un nuovo equilibrio tra controllo, velocità e qualità: così le imprese possono ripensare il ciclo di vita del dato e affrontare le sfide dell’AI
Flessibilità, scalabilità e integrazione: sono questi, secondo Mirko Gubian, Global Demand Senior Manager e Partner di Axiante, i tre termini che spiegano perché oggi il data lake in cloud guadagna sempre più spazio nelle strategie di gestione dei dati aziendali.
«La flessibilità è una caratteristica intrinseca del data lake stesso, mentre il cloud consente di aggiungere le dimensioni della scalabilità e dell’integrazione – dichiara Gubian. «Inoltre il data lake permette alle aziende di lavorare con dati non strutturati perché, a differenza del data warehouse, non richiede una struttura rigida o uno schema predefinito per l’acquisizione dei dati. Può infatti raccogliere e conservare grandi volumi di dati grezzi, inclusi testi, immagini, video o log di sistema, rendendoli disponibili per analisi future senza doverli trasformare subito in formato strutturato. Il data lake, in altre parole, offre opportunità analitiche più flessibili; un vantaggio soprattutto in contesti in cui l’organizzazione non conosce ancora tutti gli utilizzi delle informazioni che possiede e raccoglierà».
Axiante, nel suo ruolo di Business Innovation Integrator, si distingue anche nell’area del data management per un approccio end-to-end: dalla consulenza strategica iniziale fino alla progettazione, implementazione e verifica dei risultati di soluzioni ad hoc per ogni realtà. Un esempio concreto è il progetto condotto con un’importante realtà internazionale attiva nel settore dei dispositivi medicali. «L’azienda partiva da un data warehouse tradizionale, utilizzato per la parte Sales & Marketing, basato su tecnologia Microsoft, con SQL Server e un sistema di presentazione dati IBM. Questo data warehouse, però, gestiva solo dati strutturati ed era completamente on premise – racconta Gubian. «Ingaggiati per un progetto di porting in cloud, non ci siamo limitati a uno “spostamento”, ma sfruttando lo stack Microsoft (o da altri vendor, dove opportuno), abbiamo progettato e realizzato una soluzione in grado di rispondere al meglio alle esigenze di business e ai sistemi IT già in essere: una soluzione ibrida che affianca al data warehouse tradizionale, un data lake, creando un’infrastruttura che oggi viene definita “data lakehouse”».
Quando scegliere un data lake in cloud (e quando no)
A fronte degli indubbi vantaggi dei data lake, secondo Gubian questa tecnologia non rappresenta però una regola assoluta. «Se un’azienda ha un’unica sorgente dati ben strutturata – per esempio, un ERP come SAP – e l’obiettivo è semplicemente produrre report sulle vendite o sugli acquisti – quindi analisi già note, con domande già definite e senza alcuna prospettiva di evoluzione futura – allora un data warehouse tradizionale rappresenta tuttora una scelta adeguata. Diverso è il caso, ben più frequente, in cui l’organizzazione dispone di fonti eterogenee, dati non strutturati o semi-strutturati, e vuole abilitare analisi più complesse, alimentare modelli di machine learning e di AI, o rispondere a richieste che provengono da figure aziendali specializzate come i data scientist. In questi contesti, un data warehouse tradizionale è limitativo. È qui che entra in gioco l’approccio “data lake first”, che consente una maggiore flessibilità, scalabilità e apertura verso usi futuri dei dati, rappresentando una repository più performante per una strategia di analytics evoluta».
Ma come si può misurare il valore reale di un data lake in cloud? «Una delle metriche più immediate è il tempo di disponibilità del dato: se un’azienda opera in un contesto dove un aggiornamento giornaliero è sufficiente, un data warehouse tradizionale può andare bene. Ma se parliamo di un settore come l’e-commerce, dove servono aggiornamenti in tempo reale o quasi – ogni ora, ogni quarto d’ora, ogni minuto – allora la riduzione dei tempi di accesso al dato diventa un indicatore importante del valore aggiunto – spiega il manager «Altro aspetto fondamentale è la qualità del dato: nei data lake, che si basano su file, è essenziale monitorare errori come la duplicazione dei dati o la perdita di transazioni e log, che possono compromettere le analisi. Anche questi sono parametri misurabili. Ma il vero valore emerge quando si analizza cosa si riesce a fare con quei dati: il numero di insight generati, i modelli di machine learning sviluppati e, soprattutto, l’impatto diretto sui processi aziendali. Se, per esempio, i dati del data lake vengono utilizzati per fare un forecast di demand planning, possiamo misurarne l’efficacia attraverso lo scostamento tra previsione e realtà. In questo modo le aziende possono disporre di un ROI calcolabile ma anche collegato con i suoi obiettivi di business».
Le nuove frontiere: data lakehouse e AI agent
Guardando all’evoluzioni in atto, come già evidenziato, una delle nuove frontiere dell’archiviazione dei dati sono i data lakehouse perché uniscono la flessibilità e la scalabilità economica dei data lake con le prestazioni e la gestione strutturata dei data warehouse. «Questa soluzione consente di gestire grandi volumi di dati grezzi e strutturati in un unico sistema, facilitando analisi avanzate, machine learning e business intelligence senza dover duplicare o spostare i dati» precisa il manager di Axiante: «La nuova frontiera è la governance automatizzata grazie agli AI agent: sistemi intelligenti capaci di rilevare errori, migliorare la qualità dei dati e semplificare la gestione», anche se Gubian lancia un messaggio ai CIO: «Quando si avvia un progetto per la creazione di una piattaforma dati unificata, è fondamentale partire dagli obiettivi, non dalla tecnologia. L’adozione di una soluzione di advanced analytics richiede molto più del semplice caricamento dei dati: è necessario partire dal valore di business atteso, definendo chiaramente KPI e metriche per valutarne gli impatti».
In quest’ottica, diventa essenziale una solida governance da parte dell’azienda, con regole chiare su accesso, qualità e tracciabilità dei dati, sostenuta da una data architecture ben strutturata. Inoltre, secondo Axiante, il data lake non va inteso come uno strumento isolato, ma come una piattaforma scalabile e integrabile — anche con tecnologie open — per garantire flessibilità nel tempo e contenere i costi. Infine le organizzazioni che investono non solo nella tecnologia «ma anche nelle persone e nei processi sono quelle che possono trarre maggiori vantaggi da questa soluzione, tanto quanto è importante la scelta del giusto stack tecnologico perché influisce direttamente su scalabilità, sicurezza, costi, prestazioni e supporto tecnico determinando l’efficienza e l’affidabilità dell’intera infrastruttura dati» conclude Gubian.