Dati sporchi, dati dimenticati e dati inadeguati compromettono risultati e investimenti, rallentano l’adozione dell’AI e costano milioni di dollari alle aziende. Numeri che trasformano la data quality da inefficienza operativa a vero e proprio rischio finanziario

Secondo la creative agency We Are Social, 5,78 miliardi di persone utilizzano uno smartphone, 5,56 miliardi sono connesse a Internet e 5,24 miliardi partecipano attivamente ai social media: il mobile si conferma come infrastruttura primaria dell’economia digitale. Sul fronte della comunicazione diretta, la piattaforma indipendente di analisi EmailToolTester stima che nel 2025 sono state inviate circa 376 miliardi di email al giorno, un volume destinato a crescere rapidamente: 393 miliardi entro la fine dell’anno e oltre 408 miliardi nel 2027, a dimostrazione della persistente centralità dell’email come canale business-critical. A completare il quadro c’è la ricerca online. Secondo Meetanshi, società specializzata in soluzioni e-commerce, ogni secondo vengono effettuate circa 99mila ricerche sul web, pari a 8,5 miliardi al giorno e 3,1 trilioni all’anno: un flusso continuo di domanda informativa che alimenta dati, algoritmi e decisioni di mercato. In pratica, siamo sempre più connessi e, allo stesso tempo, sempre più sommersi dai dati.

Secondo Statista, piattaforma di riferimento per dati di mercato, sondaggi e statistiche, alla fine del 2025 il volume di dati generati a livello globale ha raggiunto i 181 zettabyte: quasi tre volte il livello registrato nel 2020 e circa novanta volte superiore rispetto al 2010. Un’accelerazione che evidenzia come la crescita dell’economia digitale non sia solo una questione di accesso e connettività, ma soprattutto di gestione, interpretazione e valorizzazione dei dati. Per dare un ordine di grandezza, un solo zettabyte equivale a mille miliardi di gigabyte, cioè circa 250 miliardi di DVD. Se si allineassero i supporti fisici equivalenti a tutti i dati generati dall’uomo, si potrebbe circumnavigare la Terra oltre 135mila volte, oppure impilandoli uno sull’altro, si otterrebbero 18 colonne alte quanto la distanza tra la Terra e la Luna.

Nel loro quotidiano, tutte le organizzazioni – pubbliche e private, indipendentemente dal settore – generano enormi quantità di dati: ordini, documenti di trasporto, fatture, informazioni sulle scorte, interazioni con i clienti. Un patrimonio informativo che spesso resta inespresso o sottoutilizzato, ma che racchiude un potenziale significativo. Ma al tempo stesso, uno spreco che ha costi enormi, non solo perché fa aumentare i costi infrastrutturali ma perché influisce anche sugli obiettivi di sostenibilità.

Se correttamente raccolti, integrati e analizzati, questi dati possono diventare una base concreta per l’ottimizzazione dei processi operativi, oltre a costituire il presupposto fondamentale per lo sviluppo e l’addestramento dei sistemi di intelligenza artificiale e di machine learning, che richiedono dati affidabili, strutturati e di qualità per generare insights, automatizzare decisioni e scalare l’innovazione nei modelli di business. Eppure, la scarsa qualità dei dati passa inosservata perché si manifesta a valle sotto forma di mancati ricavi, inefficienze operative, rischi di non conformità e opportunità perse. E per questo i bad data sono tanto insidiosi quanto pericolosi.

L’IMPATTO ECONOMICO

Nonostante il passare dei decenni, resta sorprendentemente attuale l’affermazione di William Edwards Deming – statistico, pioniere del controllo qualità e tra i principali teorici del miglioramento continuo dei processi, basato sulla misurazione sistematica di indicatori oggettivi: «Senza dati, sei solo un’altra persona con un’opinione». Come sottolineano gli esperti, la sfida è duplice: disporre di dati in grandi quantità e garantire che siano affidabili, coerenti e utilizzabili. In questo contesto si distinguono i bad data – informazioni errate, incomplete o incoerenti – e i dark data, che possono anche essere di buona qualità ma restano inutilizzati perché dimenticati, non integrati o conservati in formati non immediatamente leggibili.

Ma c’è di più: si parla di bad data anche quando i dataset non soddisfano i requisiti di una specifica operazione aziendale. Questo significa che dati apparentemente accurati e completi possono risultare “scadenti” in quanto “non adeguati” se non supportano il caso d’uso, il flusso di lavoro o il risultato che dovrebbero abilitare. Quindi nel momento più critico di adozione dell’intelligenza artificiale, occorre riscrivere completamente il concetto di data quality, perché le dimensioni di accuratezza, completezza, tempestività e coerenza non soddisfanno più completamente i requisiti.

Leggi anche:  Ecosistemi industriali, difesa senza interruzioni

Il risultato è che le aziende si stanno accorgendo che il loro patrimonio di dati, di cui tanto si è parlato e scritto negli anni passati, non è più sufficiente sia in termini quantitativi che qualitativi. I problemi si sommano: la qualità complessiva si deteriora, si introducono inefficienze nelle iniziative di data management e le prestazioni dell’AI peggiorano. Secondo gli analisti di Gartner, la spesa globale in intelligenza artificiale raggiungerà circa 2,5 trilioni di dollari nel 2026, con una crescita importante rispetto all’anno precedente e un incremento stimato intorno al 37-44% anno su anno.

Secondo un report dell’IBM Institute for Business Value del 2025, il 43% dei chief operations officer indica proprio i problemi di data quality come la principale urgenza nell’ambito della gestione dei dati. L’impatto economico è tutt’altro che marginale: oltre un quarto delle organizzazioni stima perdite superiori ai 5 milioni di dollari l’anno riconducibili a dati scadenti, mentre il 7% dichiara danni pari o superiori ai 25 milioni di dollari. Numeri che trasformano la data quality da inefficienza operativa a vero e proprio rischio finanziario. Le ricerche IBM IBV mostrano che qualità e governance dei dati figurano tra i principali fattori che frenano l’adozione e la scalabilità dell’AI. Quasi un leader aziendale su due (45%) indica le preoccupazioni legate all’accuratezza dei dati e ai bias come uno degli ostacoli principali. Il motivo è strutturale: i sistemi di AI non correggono i dati, li ereditano e in molti casi ne amplificano le distorsioni. Quando i dati sono incompleti, incoerenti, obsoleti o distorti, anche modelli e agenti intelligenti diventano meno affidabili su larga scala. I bad data ostacolano la possibilità di fornire a clienti e partner un supporto personalizzato e tempestivo, portando a comunicazioni errate, esperienze frustranti per il cliente, aumento del tasso di abbandono. Inoltre, causano danni non quantificabili alla reputazione delle organizzazioni.

Secondo una ricerca (un po’ datata) della Royal Mail Data Services i costi che le organizzazioni sostengono per i dati non accurati ammontano a circa il 6% del proprio fatturato. Analisi più recenti mettono in luce che la proliferazione di “bad data” anche nei data center, che compromettono l’efficacia dell’AI ed hanno un impatto sia sull’infrastruttura fisica che su quella digitale. Metadati errati o asset mal etichettati possono provocare un’allocazione inefficiente delle risorse fisiche, producendo sprechi di alimentazione e raffreddamento. Per esempio, un server dismesso e non monitorato potrebbe continuare a consumare elettricità e occupare prezioso spazio rack.

DATA GOVERNANCE

Nonostante la crescente consapevolezza sull’importanza della data quality, molte aziende la trattano ancora come un tema secondario. Troppo spesso, infatti, non dispongono di strumenti o processi in grado di affrontare la qualità dei dati in modo strutturato, trasversale e continuo. Il problema nasce dal fatto che la gestione della qualità viene considerata a valle, dopo la raccolta, l’elaborazione e l’utilizzo dei dati, invece di essere integrata fin dalle prime fasi di progettazione dei sistemi IT. Questo approccio reattivo aumenta il rischio di dati incoerenti o incompleti e genera interventi correttivi costosi e inefficaci, compromettendo l’affidabilità delle analisi e l’efficacia dei progetti di intelligenza artificiale.

Solo adottando un approccio “nativo” alla qualità dei dati, basato sul principio di “shift left”,  è possibile garantire coerenza, completezza e precisione in ogni fase del ciclo di vita del dato. In questo modo si riducono gli interventi correttivi tardivi, spesso costosi e complessi, come monitoraggio, misurazione della qualità, pulizia, correzione e validazione. Queste attività, indispensabili per evitare dati “sporchi” nel sistema, diventano invece parte integrante del processo, assicurando che le informazioni siano affidabili e immediatamente utilizzabili per analisi, decisioni operative e progetti di AI.

Uno dei problemi principali delle incoerenze di dati nelle organizzazioni è la logica a silos: la frammentazione dei dati tra reparti, team e sistemi, spesso senza collaborazione tra i diversi dipartimenti, genera sovrapposizioni, lacune e limitazioni nell’integrazione dei dataset. La gestione dei dati va invece progettata – o riprogettata – con un approccio strategico, integrato e continuo, in grado di supportare non solo i singoli progetti, ma anche l’evoluzione verso un’organizzazione data-driven. Un secondo limite delle organizzazioni attuali è la mancanza di una chiara ownership: chi è responsabile della qualità dei dati in azienda? L’IT o il Business? Un’azienda che ha affrontato, e risolto, entrambe queste tematiche è Banca Popolare di Sondrio. Fondata nel 1871, è stata una delle prime banche popolari italiane ispirate al movimento popolare cooperativo del credito. Oggi conta su una rete territoriale di 372 filiali e un capitale sociale di 1.360 milioni di euro, distribuito fra circa 158mila soci.

Leggi anche:  Ricerca di Cisco e OCSE rivela profondi divari generazionali e geografici nell'adozione dell'AI

Già alcuni anni fa, la Popolare di Sondrio si è impegnata a strutturare un modello di data governance e data quality con l’obiettivo di trasmettere il concetto di “controllo dei dati” non come costola dell’IT, ma come supporto all’intera azienda. Nella costruzione del modello di data governance gli attori coinvolti sono quattro: il data owner, figura di business che detta le regole di controllo; il data provider, figura IT che gestisce a livello informatico i dati; il chief data officer, che svolge compiti operativi tra cui controllo dei dati e gestione dei tool; e infine l’utilizzatore del dato, ancora una volta figura del business che utilizza i dati con obiettivi aziendali. La data quality non è esclusiva responsabilità della funzione IT, ma richiede che tutte le funzioni aziendali sviluppino una consapevolezza diffusa nella sua gestione. A questo approccio si affiancano un’adeguata architettura di data governance e strumenti IT a supporto dell’intero processo.

Risultano essenziali la disponibilità di un applicativo dedicato alla gestione della qualità del dato e di un sistema di dizionarizzazione, in grado di definire in modo univoco significato e utilizzo delle informazioni. Questa architettura consente di strutturare un percorso standard del dato, dalla fonte informativa all’utente finale, eliminando la necessità di controlli incrociati e permettendo di operare su repository certificati e affidabili. In questo modo, la data governance in Banca Popolare di Sondrio ha prodotto risultati tangibili, consentendo una visione integrata del cliente all’interno del CRM, la messa a fattor comune dei risultati dei motori analitici ed è risultata un elemento abilitante anche sulle tematiche di conformità al GDPR.

QUALITÀ DEI DATI E AI

Secondo il rapporto “Embracing a brighter future: Investment priorities for 2024” di Capgemini Research Institute, molte organizzazioni riconoscono il potenziale dell’AI come strumento per promuovere l’innovazione, la produttività e la crescita dei ricavi. Quasi nove organizzazioni su dieci prevedono di utilizzare l’AI generativa entro i prossimi 12-18 mesi. Nel contesto della crescente accelerazione nell’adozione dell’AI, la qualità dei dati diventa un fattore critico. L’intelligenza artificiale ha una fame insaziabile di dati, ma la sua affidabilità, di natura intrinsecamente statistica, è proporzionale alla disponibilità di dataset ampi, di elevata qualità, strutturati e costantemente aggiornati. Dati di qualità possono determinare il successo di un progetto di AI, mentre dati “sporchi” o inadeguati ne compromettono l’efficacia fino a decretarne il fallimento.

A confermarlo la ricerca “Data & Decision Intelligence: pilotare l’AI per usarla davvero!” dell’Osservatorio Big Data & Business Analytics del Politecnico di Milano. Solo il 38% delle grandi aziende ha definito una strategia di valorizzazione dei dati, e solo una su cinque ha nominato un chief data officer o chief data & analytics officer per guidarla. Inoltre, il 27% delle grandi organizzazioni non ha ancora avviato progetti in ambito advanced analytics, indice della difficoltà nel compiere un vero salto di maturità. Eppure, tra chi ha già sperimentato almeno un progetto, il panorama è in espansione e l’87% ha aumentato nell’ultimo anno il numero di iniziative. La sfida che le imprese hanno davanti è duplice – come spiega Alessandro Piva, responsabile della Ricerca dell’Osservatorio Big Data & Business Analytics.

Leggi anche:  Co-formazione, AI e partnership

«Da un lato, è essenziale mantenere una sana cultura basata sul miglioramento del decision-making, consapevoli che l’AI rappresenta un mezzo e non il fine ultimo. Dall’altro, è cruciale preparare le piattaforme dati aziendali per diventare AI-ready. Da questo deriva un avvicinamento sempre più marcato tra data governance e AI governance, due ambiti interconnessi che ora più che mai necessitano di logiche di dialogo e collaborazione». In altre parole, dati e intelligenza artificiale non possono più viaggiare su binari separati.

Secondo Carlo Vercellis, responsabile scientifico dell’Osservatorio, è necessario integrare in modo sinergico le componenti dati e AI, lasciando che siano le esigenze di business a tracciare il percorso, per ottimizzare i processi o innovare nella proposta di valore. «In mancanza di questi elementi, il potenziale valore dell’intelligenza artificiale rischia di rimanere inespresso o addirittura creare nuovi rischi per le aziende».

DATI SINTETICI IN AZIONE

Anche se l’AI ha fame di dati, la quantità non è un requisito sufficiente. La diffusione di bad data, dark data e dati non adeguati limita l’addestramento dei modelli AI avanzati e ne rallenta la messa a valore. Questa carenza è particolarmente evidente nei settori regolamentati, come sanità e finanza, dove i vincoli normativi sulla privacy rendono complessa la raccolta e l’utilizzo dei dati reali. È in questo contesto che i dati sintetici stanno assumendo un ruolo crescente. Generati tramite algoritmi, modelli matematici e tecniche avanzate di machine learning, i dataset sintetici riproducono le proprietà statistiche e le relazioni dei dati reali senza contenere informazioni personali o sensibili, riducendo tempi, costi e rischi di compliance.

A differenza di semplici dati anonimizzati, i dati sintetici consentono di simulare in modo controllato scenari rari o eventi estremi difficilmente osservabili nel mondo reale. Questo li rende particolarmente utili per migliorare l’affidabilità e la robustezza dei modelli di AI, soprattutto nei sistemi autonomi chiamati a operare in contesti complessi e imprevedibili. I casi d’uso nell’automotive e nella robotica sono emblematici.

Nel settore automotive, le simulazioni basate su dati sintetici permettono di creare milioni di scenari di guida in ambienti virtuali, includendo condizioni meteorologiche estreme, traffico intenso, comportamenti pedonali anomali o variazioni critiche di illuminazione. A questi scenari possono essere associati flussi di dati multimodali provenienti da telecamere, radar e lidar, consentendo di addestrare e validare i sistemi di guida autonoma in modo più sicuro ed efficiente rispetto ai test nel mondo reale. Un approccio analogo è adottato nella robotica, dove le simulazioni permettono di modellare ambienti industriali complessi, interazioni uomo-macchina, incidenti o malfunzionamenti difficilmente replicabili nella realtà. I dati sintetici, tuttavia, non sono destinati a sostituire quelli reali. Il modello emergente è ibrido: i dati sintetici colmano le lacune dei dataset reali, supportano l’addestramento iniziale o coprono scenari rari, rischiosi o soggetti a forti vincoli di privacy.

In contesti critici, come sanità e trasporti, restano indispensabili il continuo riaddestramento dei modelli su dati del mondo reale e un presidio rigoroso della qualità. La generazione di dati sintetici richiede molta attenzione. Le tecnologie più diffuse spaziano dalle simulazioni in ambienti virtuali ai modelli di AI generativa, come GAN e VAE, fino agli approcci basati su distribuzioni statistiche. Ma l’uso indiscriminato di dati generati da altri sistemi di AI può introdurre rischi di circolarità, amplificando errori e bias nel tempo. Per questo è necessaria una governance solida e un controllo umano continuo.  Più che una soluzione definitiva ai problemi di data quality, i dati sintetici rappresentano uno strumento potente all’interno di un ecosistema più ampio di sviluppo responsabile dell’intelligenza artificiale. Se usati correttamente, offrono vantaggi significativi: maggiore controllo sulle distribuzioni e sulle dimensioni dei dataset, migliore copertura degli scenari, facilità di condivisione e benefici anche in termini di sostenibilità. Ma il loro valore dipende, ancora una volta, dalla qualità del modello di governance che li accompagna.