Software

Cos’è un “data lake”, e come evitare che diventi una palude

6 Maggio 2019

Oggi le aziende hanno ormai compreso che i dati devono fornire valore. Per non rinunciare a nessuna delle opportunità che i dati potrebbero offrire, molte hanno costruito dei “data lake” per archiviarli in formato nativo fino a quando saranno necessari. Ma questi laghi possono diventare rapidamente torbidi se non vengono gestiti correttamente

A cura di Massimo Dino Ceresoli, Head of Global Services – Southern Europe presso Orange Business Services

Con “data lake” fondamentalmente si intende un metodo di archiviazione per tutti i dati grezzi di un’azienda, provenienti da fonti diverse, che rimangono dormienti fino a quando non viene identificato un uso aziendale per essi. Andrew White, VP di Gartner, definisce un data lake come “un’area di sosta per dati, a metà tra le fonti e un qualche tipo di consumatore o di consumo”.

I dati raddoppiano di dimensione ogni due anni, ed oggi costituiscono una delle risorse più importanti di un’azienda, quindi è fondamentale conservarli al sicuro e mantenerli utilizzabili. A questo servono i data lake, che non sostituiscono i data warehouse ma li integrano. I data lake sono altamente flessibili e versatili e si adattano meglio al lavoro di analisi. I data warehouse, d’altro canto, gestiscono dati strutturati, ottimizzandoli per renderli recuperabili nell’intera organizzazione. Per questa ragione, la memorizzazione di tutti i dati in data warehouse e database può essere costosa: devono essere ripuliti e preparati prima dello storage, sebbene i dati di origine non vengano conservati. Lo scaling è costoso e richiede hardware specifico.

“I data lake non sostituiscono nulla, bensì rappresentano una parte nuova e aggiuntiva dell’infrastruttura dati, fatta per risolvere problemi nuovi. I data warehouse sono ancora molto importanti per le aziende, ma non sono flessibili quanto i sistemi di data lake”, spiega Ingo Steins, vicedirettore delle operazioni presso The Unbelievable Machine Company, una società Orange Business Services.

I data lake promettono di abbattere i silos di dati, creando un unico repository per l’intera organizzazione. Consentono ai dati non strutturati e ai dati di origine di essere conservati e archiviati in modo economicamente conveniente.

I data lake sono progettati per l’elaborazione parallela e la crescita lineare. I dati non strutturati, che vanno dai dati dei social media ai file doc e pdf alle informazioni raccolte da dispositivi connessi, si stanno riversando nelle imprese. I sensori dei motori degli aerei, ad esempio, producono 20 terabyte di dati all’ora. Con un data lake, le imprese possono archiviare questi dati in modo economico, recuperandoli per analizzarli in caso di necessità.

Ma anche se i data lake si sono dimostrati efficaci per la memorizzazione di enormi quantità di dati, funzionano solo se sono gestiti con cura se è chiaro cosa contengono esattamente. Altrimenti un data lake incontaminato può trasformarsi rapidamente in un “pantano” di informazioni.

Tenere pulito un data lake

I data lake hanno molti vantaggi, tra cui la flessibilità, la capacità di ricavare valore da tipi di dati non strutturati e le possibilità illimitate di interrogare i dati.

“Sembra un sogno è in effetti lo è”, continua Steins. “Ma potrebbe anche diventare un vero incubo. Struttura e documentazione sono fondamentali anche per i data lake: è necessario sapere sempre cosa c’è nel lago. Altrimenti invece di un lago ci si troverà davanti a una palude di dati”.

“Dati di scarsa qualità portano a risultati negativi, anche con una perfetta piattaforma di analisi”, aggiunge Steins.

Allestire un data lake non significa semplicemente creare un bacino e riversarci dentro i dati: questo approccio lo renderebbe disordinato e ingestibile fino a condurre alla “palude dei dati”.

Evitare questo scenario è fondamentale se un’impresa vuole davvero sfruttare e capitalizzare i propri dati e generare nuova business intelligence. Ci sono modi semplici, tuttavia, di mantenere pulito il lago:

Per prima cosa, è importante essere selettivi con i propri dati. Uno degli errori più grandi delle aziende è raccogliere troppi dati, semplicemente perché sono disponibili. È necessario capire a che cosa possono servire i dati e quali sfide di business potrebbero risolvere. Questo consente di evitare di inondare il data lake con dati che in ultimo non serviranno a nulla. Sapere quali sono le priorità è fondamentale per sviluppare una struttura di governance per qualsiasi impresa.

La governance dei dati introduce pratiche per la gestione dei data lake che ottimizzano il valore dei dati, li classificano e proteggono, e allo stesso tempo chiariscono a chi appartengono – che si tratti di dati strutturati o di dati non strutturati. Così il data lake conterrà solo risorse dati e metadati affidabili, facilmente reperibili in ogni momento. A tal fine, Steins ritiene “importante affidare a una figura in ogni dipartimento la responsabilità di ciò che c’è nei dati e della loro qualità”.

È possibile anche sfruttare le tecnologie emergenti, come l’intelligenza artificiale (IA) e l’apprendimento automatico, per ordinare i dati, individuare dei pattern e determinare il loro valore.

Infine, è utile mantenere il data lake a vicino al luogo in cui si intendono utilizzare i dati. Più lontano si trova, più diventa probabile incontrare problemi di latenza al momento dell’analisi dei dati, ad esempio. Mantenere i dati vicino a chi li utilizza garantisce la sicurezza e ottimizza l’uso dei dati, offrendo maggiore produttività.

Data Fabric, il tessuto dei dati per integrare il data lake

Con la crescita nell’economia digitale, è inevitabile che le aziende inizino ad avere più di un data lake. Un esempio è la duplicazione di dati da un data lake a un altro che si trova altrove. Ciò deve essere fatto impiegando una gestione e una governance coerenti per garantire la sicurezza dei dati, che non è un compito facile. È qui che entra in campo il data fabric, la “tessitura” dei dati, per fornire un livello di gestione su tutti i data lake.

In pratica, il data fabric è un mix di architettura e tecnologia ospitato in un’unica piattaforma di gestione dei dati. È stato creato per superare le complessità legate alla gestione di diversi formati di dati utilizzando più sistemi di gestione di database che funzionano su varie piattaforme: localmente, in data center e in ambienti multi-cloud.

Le soluzioni di data fabric, come ad esempio Splunk, creano un ambiente di dati unificato scalabile, cucito nel tessuto stesso dei sistemi informativi aziendali. Supportano più sedi, migliorando il coordinamento del flusso di dati centrale, i servizi e l’affidabilità.

Cosa ci aspetta

Nel nostro mondo sempre più connesso, le sfide che riguardano i dati continuano ad aumentare. Unificare i dati generati da un numero crescente di applicazioni sta diventando sempre più problematico. Le aziende devono riunire dati provenienti da data lake, data warehouse, cloud storage e così via e assicurarsi di essere in grado di trasformarli in un asset aziendale, non un fardello.

Il data fabric potrebbe essere la risposta al dilemma che le aziende stanno affrontando, evitando “paludi di dati” in un ambiente in cui non c’è più solo un “data lake”, bensì molti.

Cos’è un “data lake”, e come evitare che diventi una palude

TI PIACE QUESTO ARTICOLO?

Tenere pulito un data lake

Data Fabric, il tessuto dei dati per integrare il data lake

Cosa ci aspetta

Cloud

Intelligent Workplace

Digital Transformation

Smart Industry

Cybersecurity & Business Continuity

Smart City

WeChangeIT Forum 2024

Insurance

Intelligent Healthcare

WEB COVER

Veritas e V-Valley insieme per la gestione sicura dei dati

TOP 100 DEL SOFTWARE IN ITALIA