Data science agile? Ecco i quattro passi fondamentali

Data Governance centralizzata. Come gestire i dati in un insieme distribuito

Approccio federato e un workbench comune per la data science e l’automazione del machine learning. Come accelerare lo sviluppo di modelli di machine learning e rafforzare la gestione della data science

Nel corso dell’ultimo decennio, l’ascesa della scienza dei dati è stata a dir poco spettacolare. Oggi, quasi tutte le aziende hanno dato priorità ai dati e all’analisi nella loro determinazione a diventare data driven. Tuttavia, con così tanti progressi nel campo del machine learning e della data science, le tecnologie in quest’area si sono scavalcate a vicenda a un ritmo molto rapido. Il risultato è che molte aziende ora dispongono di un’ampia gamma di strumenti e librerie di algoritmi sparsi lungo l’intera organizzazione.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Per esempio, alcuni team potrebbero utilizzare i Jupyter Notebook oppure MLlib Spark con Python. Altri potrebbero utilizzare Tensorflow e Keras. Anche R e RStudio sono diffusi, così come gli strumenti di drop data mining di fornitori come Knime, SAS, Tibco e Dataiku. Poi ci sono le tecnologie di analisi dello streaming che possono essere eseguite utilizzando forse Kafka, Python e Flink: insomma, le possibili opzioni sono davvero numerose. In questo senso, è corretto affermare che la maggior parte delle aziende ha un approccio frammentato e isolato allo sviluppo di modelli di apprendimento automatico. Le competenze sono scarsamente distribuite su molteplici tecnologie. Il riutilizzo è limitato. Lo sviluppo è più lento del previsto. E la manutenzione è diventata una sfida importante e costosa. Alcuni data scientist hanno scritto il proprio codice per pulire e preparare i dati, per esempio in Python o R. Altri potrebbero aver utilizzato strumenti di preparazione dei dati self-service come Trifacta o DataRobot o persino strumenti ETL tradizionali. Inoltre, molte fonti dati sono state utilizzate ripetutamente da diversi data scientist per ottenere i dati per produrre le funzionalità necessarie per addestrare un modello. Di conseguenza, in molti casi, si è verificata una reinvenzione con persone che hanno ripetutamente creato le stesse funzionalità.

Modelli operativi

Guardando da una prospettiva aziendale, le imprese vogliono davvero gestire la data science e i progetti molto meglio di quanto stanno facendo, anche per accelerare sia lo sviluppo sia l’implementazione di modelli di apprendimento automatico. Ci sono quattro passi fondamentali da compiere per accelerare lo sviluppo di modelli di machine learning e rafforzare la gestione della data science. Nell’ordine, si tratta di migliorare il modello operativo (l’organizzazione) per accelerare lo sviluppo; allineare i team di progetto con gli obiettivi della strategia di business e facilitare lo sviluppo collaborativo; creare un catalogo di dati e un catalogo di analisi; e infine migliorare la produttività della data science mediante una piattaforma di analisi dei dati comune, in grado di integrare tecnologie di analisi autonome.

Leggi anche:  Bianchi, continuare a correre

Quando si tratta di modelli operativi, si parla spesso di assetti organizzativi centralizzati o decentralizzati. Al momento, molti sono ora decentralizzati con team di data science autonomi sparsi per l’azienda. Entrambi gli approcci hanno i loro problemi, ma che dire di un approccio federato? Molte aziende ora considerano questo come un modo per riunire e coordinare più team di data science disparati all’interno dell’organizzazione. Un approccio federato comprende un centro di eccellenza e un ufficio centrale che supporta e collega i team di data science. Sarebbero di aiuto anche altre cose come un catalogo o un mercato di dati, un data fabric comune per l’ingegneria dei dati e delle funzionalità, un feature store e un workbench comune di data science con automazione dell’apprendimento automatico e MLOps. Lo sviluppo idealmente collaborativo su un data fabric comune, un catalogo di dati e un workbench comune di data science potrebbe fare una differenza significativa nell’accorciare il time to value.

Requisiti chiave

Tra i requisiti chiave per un workbench di data science a supporto di più team in azienda vi sono in primo luogo il supporto end-to-end del ciclo di vita: sviluppo del modello, distribuzione del modello, esecuzione del modello e gestione del modello; la possibilità di creare progetti che consistono in risorse di dati, lavori di preparazione dei dati, notebook, modelli analitici e collaborazioni (discussioni e altro); la capacità di creare comunità e facilitare la collaborazione; la traccia di tutte le attività all’interno di un progetto, utilizzando i metadati per registrare ciò che stanno facendo i membri del team di progetto; e infine, l’integrazione con un catalogo dati per scoprire, profilare e aiutare a trovare automaticamente i dati. L’implementazione di modelli di apprendimento automatico in più ambienti comprende anche la necessità di distribuire modelli come servizio (API) con esecuzione elastica, in un database (per esempio, un DBMS di data warehouse), in-Spark, in un ambiente di analisi in streaming sull’edge per analizzare i dati in tempo reale e in un’applicazione come codice. Tutti questi sono necessari. Proprio per rispondere a queste esigenze, sono emersi nuovi strumenti di workbench di data science che supportano la capacità di più team di gestire e organizzare progetti di data science su un’unica piattaforma. Si tratta di prodotti come AWS SageMaker, Cloudera CDP Machine Learning, Google Vertex AI, IBM Watson Studio, Microsoft Azure Machine Learning e SAS Viya 4.

Leggi anche:  L'intervento del Ministro Urso a WeChangeIT Forum di Data Manager - VIDEO

In molti casi, questi workbench di data science offrono una gamma di servizi che governano l’intero ciclo di vita del modello di machine learning. AWS, Google, IBM e Microsoft lo offrono tutti. Anche Google è appena entrato nel mercato, e pure SAS, che ha una presenza importante in Italia, è nel mix. Se non si ha familiarità con l’automazione del machine learning, nota anche come AutoML, questa offre importanti vantaggi in termini di produttività, compresa l’ingegnerizzazione automatizzata delle funzionalità. L’AutoML può anche classificare automaticamente l’importanza delle variabili in un modello in base al loro contributo a una previsione che rende possibile la selezione automatica delle variabili. Questo costituisce un grande vantaggio, insieme alla capacità di determinare automaticamente la quantità di dati necessari per massimizzare l’accuratezza del modello. Ma l’AutoML comprende anche l’addestramento automatico, il test e la valutazione di più algoritmi per ottenere i migliori modelli. Infine, può essere utilizzata per spiegare automaticamente le previsioni (necessarie per la conformità) e automatizzare il deployment, il monitoraggio, il re-training, il nuovo test e l’aggiornamento del modello.

Industrializzare la scienza dei dati

Tutto questo aumenta il livello di astrazione della scienza dei dati e abbassa l’asticella delle competenze. Per esempio, le competenze di programmazione non sono più necessarie per preparare e integrare i dati: questa è una buona notizia per molte aziende, se si considera la nota carenza globale di data scientist. Se quindi non c’è dubbio che la scienza dei dati abbia fatto molta strada nell’ultimo decennio, è giunto il momento di industrializzare questo processo. Per farlo, le aziende devono organizzarsi nominando i responsabili del contributo dell’analisi ai risultati di business e incaricando i team di data science di sviluppare modelli che aiutino a raggiungere gli obiettivi della strategia di business.

Leggi anche:  Data mesh, i dati come prodotto

Le aziende dovrebbero anche prendere in considerazione l’introduzione di un catalogo di dati e di un data fabric comune, cioè una piattaforma di data management, con la preparazione dei dati self-service per trovare e preparare i dati. Ciò aiuta a portare tutti su una piattaforma comune per massimizzare la condivisione e il riutilizzo, prendendo le distanze dalla complessità degli strumenti stand-alone non integrati. Inoltre, bisogna far sì che i team creino modelli utilizzando un workbench estensibile comune di data science, che supporti il machine learning automatizzato, con monitoraggio, riaddestramento e aggiornamento automatizzati dei modelli, migliorando significativamente la produttività e riducendo il time to value.


Mike Ferguson

Managing director di Intelligent Business Strategies, come analista è specializzato in business intelligence ed enterprise business integration. Con oltre trent’anni di esperienza in ambito IT, ha svolto attività di consulenza per importanti aziende su temi quali la business intelligence, l’enterprise architecture, la business process integration, l’application integration e la data integration. Oltre a essere frequentemente speaker in numerosi eventi e seminari in tutto il mondo, è anche autore di svariati articoli tecnici.

Mike Ferguson presenterà per Technology Transfer i seminari: “Progettare, costruire e gestire un multi-purpose data lake” che si terrà il 22-23 novembre 2021; “Machine learning e advanced analytics” che si terrà il 24-25 novembre 2021; “Enterprise data governance e master data management” che si terrà il 9-10 dicembre 2021.