Big Data. La corsa alla “collina dell’accesso”

Se si accetta la premessa di un’architettura di dati federata basata principalmente sui carichi di lavoro, invece che sui soggetti di dati logici, la domanda che si pone è: «Come trovare qualsiasi cosa e da dove iniziare»?

La capacità di gestire il contesto semantico di tutti i dati, il suo utilizzo ai fini del monitoraggio e della conformità – oppure per fornire agli utenti un unico o semplice punto di accesso – costituisce la corsa alla “collina dell’accesso”. Quando si pensa a “Internet”, ci si rende conto che viene usato come un sostantivo singolare, similmente a come “googlare” è diventato un verbo che significa cercare lungo tutti i milioni di server che compongono Internet. Pertanto – se la piattaforma moderna dei dati rappresenta sotto forma di sostantivo singolare tutti i disparati archivi di dati e gli asset dell’azienda – abbiamo bisogno di un punto di accesso e della navigazione. Altrimenti, la piattaforma moderna dei dati consiste semplicemente in un gruppo di database.

Un concetto importante che è in gioco per i moderni architetti dei dati nella “corsa all’accesso” è come centralizzare il contesto semantico di coerenza, collaborazione e navigazione. Una volta, nel mondo organizzato degli schemi di dati, vi erano molti vendor di database e tecnologie che rendevano eterogeneo l’accesso ai dati, ma si trattava ancora di accesso unificato SQL ai dati in un unico paradigma. L’architettura dati federata aveva prevalentemente ancora lo schema SQL nella sua natura, ed era più facile da unificare. I sistemi di oggi, come Hadoop, hanno la capacità di separare il contesto dei dati o il loro schema dai dati in sé, e questo apporta notevoli vantaggi a livello di discovery per unire lo schema ai dati in una fase successiva, invece di dover analizzare e progettare uno schema prima di caricare i dati come si fa con i RDBMS tradizionali.

Centralizzare il contesto può essere fatto nei componenti HCatalog o Hive di un cluster Hadoop per l’integrazione semantica con altri database SQL-oriented per la federazione. La virtualizzazione dei dati serve come un unico punto di accesso per l’ampia comunità dei consumatori basata su SQL, divenendo il “collante” della piattaforma moderna dei dati che unifica la persistenza in molti carichi di lavoro degli archivi dati. Anche l’aggiunta successiva di HCatalog e Hive per Hadoop ha questa capacità, ma solo per i dati che si inseriscono in questo paradigma. La funzionalità MapReduce è stata progettata per permettere qualsiasi capacità di analisi attraverso questo modello di programmazione. Altri archivi dati NoSQL, come i database di tipo grafico, non “parlano SQL” di per sé: quindi, per essere completo, un livello (o punto) di accesso dovrà anche essere orientato al servizio. I consumatori avranno bisogno di una semplice mappa di navigazione che permette di accedere e utilizzare informazioni dai servizi dati, così come tabelle di dati virtuali. La strategia a lungo termine si sbilancia ulteriormente verso un orientamento al servizio e lo farà sempre di più nel corso del tempo, ma saranno ancora necessari i dati virtualizzati per le situazioni di accesso alle informazioni ad hoc.

Leggi anche:  Costruire una cultura aziendale basata sui dati

Competere per la Collina

La risoluzione di questa parte della “corsa alla collina dell’accesso” avverrà gradualmente nei prossimi anni; in caso di necessità, una tecnologia e la strategia sono già in atto perché le aziende le adottino. Tuttavia, questo non è il caso con la porzione “collina” della “corsa”: i venditori fanno a gara per posizionare i propri prodotti per essere quell’unico punto di accesso (cioè la collina) con argomenti convincenti e casi di studio per sostenerli. Mettendo da parte la centralizzazione del contesto semantico via SQL/Servizi, la domanda successiva diventa: Dove dovrebbe vivere questo punto di accesso all’interno dell’architettura?

Ci sono quattro posizioni o livelli diversi in cui il contesto e l’accesso centralizzato potrebbero essere gestiti in modo efficace: se si vuole, si tratta di un continuum tra due punti con i dati da una parte e il consumatore o l’utente all’altro. Lungo questo continuum sono diversi punti dove è possibile introdurre contesto e accesso centralizzato. A partire dall’estremità dei dati, si potrebbe porre il punto unico di accesso all’interno di un database, e questo database potrebbe avere collegamenti con altri archivi di dati e la virtualizzazione, per essere la rappresentazione per gli utenti. Il passo successivo potrebbe essere di centralizzare l’accesso e il contesto delle informazioni sopra il livello del database, ma tra le app di business intelligence e i livelli consumer con una tecnologia di virtualizzazione dei dati. Come terzo passo si potrebbe spostare più avanti il percorso verso l’utente a livello di applicazione BI, dove gli strumenti di BI hanno la possibilità di creare metacataloghi e oggetti di dati in un ordine gestito per il reporting, i dashboard e altri strumenti per i consumatori di dati. Infine, alcuni sostengono che l’utente – o l’applicazione desktop – è il luogo dove gli utenti possono liberamente navigare e utilizzare i dati all’interno del contesto di cui hanno bisogno a livello locale e con una modalità molto più agile.

Dipende tutto dai dati

Nonostante tutti i vendor di database, di virtualizzazione dei dati e di strumenti di BI corrano per essere l’unico punto di accesso per tutti gli asset relativi ai dati nella Modern Data Platform, non c’è una sola risposta riguardo a dove dovrebbero vivere l’accesso unico e il contesto, perché non è necessariamente una questione architetturale, quanto forse più filosofica: il classico “dipende”. Con così tante opzioni disponibili oggi dai vendor, è essenziale capire come fondere ed ereditare il contesto e in quali circostanze o carico di lavoro.

Leggi anche:  Covid-19 e Smart Working: Qualtrics (SAP) rende disponibile gratuitamente Remote Pulse

In primo luogo, bisogna capire quali dati devono essere governati con forza, perché non tutti i dati sono creati uguali. Quando il contesto semantico dei dati deve essere governato assolutamente, spostare il contesto più vicino ai dati garantisce che l’accesso erediterà il contesto ogni volta. Per i database relazionali, questo succede con le tabelle, le colonne e i tipi di dati che definiscono entità e attribuzioni all’interno di uno schema dei dati. Per Hadoop, invece, questo sarebbe nella definizione della tabella e delle colonne, con il livello di astrazione Hive o HCatalog delimitato ai dati, all’interno dell’Hadoop Distributed File System (HDFS). Pertanto, uno strumento di virtualizzazione di dati o un server di BI potrebbero integrare gli schemi di più archivi dati come un unico punto di accesso virtuale. Contrari a questo approccio sono i dati che non dispongono ancora di un set di definizioni (la discovery), oppure quando l’interpretazione locale è più importante della coerenza a livello aziendale, e qui ha più senso che il contesto sia gestito da utenti o business analyst in modalità self service o collaborativa. Il ciclo di vita semantico dei dati può essere pensato come la discovery, la verifica, la governance e, infine, l’adozione da utenti diversi in modi diversi.

Verso il futuro

Nel 2013, si sono verificati due importanti cambiamenti nel panorama dei dati. È stata più o meno risolta l’accettazione del trarre vantaggio dai punti di forza delle diverse tecnologie di database in una moderna piattaforma dei dati ottimizzata, ma il riconoscimento di un unico punto di accesso e del contesto è il prossimo passo. Allo stesso modo, la corsa per l’accesso è continuata anche nel 2014, e mentre una soluzione può superare le altre, grazie alle spinte e al marketing dei vendor, il dibattito globale continuerà per anni, in un contesto nel quale le aziende persisteranno nei loro approcci misti.

Leggi anche:  DevOps per i dati e la data science. Verso l’AI always on anche nel business

Ma bisogna prepararsi alla seconda ondata dei dati che sta emergendo, portando a un ulteriore livello i dati web e mobile. Si tratta dell’Internet of Things, cioè dei dati Machine-to-Machine (M2M), che derivano da un rapporto di migliaia di dispositivi per persona che creano, condividono ed eseguono analisi ogni secondo, in alcuni casi. Che si tratti di dispositivi in casa, in auto, in ufficio oppure ovunque in un punto intermedio qualsiasi, che abbiano una spina elettrica o una batteria, oppure che generino e condividano dati da qualche parte nel cloud – ci saranno nuove forme di valore creato dalla business intelligence, dall’intelligence per l’efficienza energetica, dall’operational intelligence (OI), e da molte altre forme e famiglie di intelligenza artificiale.

 


 

John O’Brien

Professionista e consulente. Ha 25 anni di esperienza nei settori Data Warehousing e Business Intelligence. La combinazione dei diversi ruoli che ha svolto rende unico e originale il suo punto di vista. Come esperto riconosciuto nel settore BI, ha pubblicato numerosi articoli ed è intervenuto come speaker in importanti conferenze negli Stati Uniti e in Europa. Oggi, John O’Brien svolge attività di ricerca e offre servizi di strategic advisory per guidare le aziende verso la nuova generazione dell’Information Management.

John O’Brien presenterà a Roma per Technology Transfer il seminario “Modern Data Platforms” nell’autunno 2015.