Data Engineer e Data Analyst non bastano, servono anche i Data Steward

A cura di Elisa Pedretti, Business Intelligence Consultant di Axiante

Le aziende hanno compiuto investimenti significativi nell’infrastruttura dati, affiancandole con team specializzati di data engineer e data analyst. Eppure, nonostante la solidità tecnica di questi passi, emerge con crescente frequenza un problema strutturale: il mancato allineamento tra tecnologia e coerenza dei dati.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Indubbiamente i data engineer garantiscono pipeline robuste, scalabilità e performance, mentre i data analyst estraggono insight, producono report e identificano pattern. Entrambe le funzioni operano nelle rispettive aree di attività, tuttavia, questa specializzazione verticale genera un vuoto critico: nessuna figura presidia in modo strutturato la coerenza del significato dei dati attraverso le varie funzioni aziendali.

Il problema semantico

Tuttora la maggioranza delle aziende operano attraverso silos funzionali, ciascuno con le proprie logiche, nomenclature e sistemi. Questa frammentazione si riflette inevitabilmente sulla gestione dei dati a causa di metriche divergenti, entità – come sku o nome e cognome di clienti – codificate in modo differente, aggregazioni calcolate secondo criteri incompatibili, e altro.

Tutto ciò si traduce in dati o insight non corretti; ciò non per un problema tecnico ma a causa di una distorsione “semantica”. I flussi sono formalmente corretti, le pipeline funzionano, i report vengono generati ma le risultanze non sono affidabili perché si fondano su dataset tecnicamente ineccepibili ma concettualmente incoerenti.

Immaginiamo che un’azienda voglia conoscere quante magliette blu vende ma i diversi sistemi aziendali gestiscono i dati sulle t-shirt in modo differente: l’ERP assegna a ogni modello un codice senza distinzione di colore. La produzione invece raggruppa tutte le singole varianti colore di ogni modello in un unico codice e l’e-commerce codifica le magliette per modello e variante colore. Ne risulta che i numeri di ogni singolo sistema sono tecnicamente corretti, ma incoerenti tra loro e quindi incapaci di esprimere un dato corretto su quante magliette blu vengono vendute.

Leggi anche:  Fondazione Cariplo e Microsoft insieme per promuovere l'AI nel terzo settore

In altre parole, quando i sistemi aziendali non condividono la stessa definizione/codifica o gli stessi sistemi di calcolo oppure di raggruppamento, i dati risultano corretti singolarmente ma contraddittori nel loro complesso, rendendo impossibile generare un risultato quanto meno affidabile.

La necessità di un linguaggio comune

Quanto esposto rivela un equivoco fondamentale: la qualità dei dati non è un problema esclusivamente tecnico. L’IT può garantire la correttezza formale dei processi, ma non può risolvere unilateralmente incoerenze che nascono dalla mancanza di governance trasversale all’organizzazione.

Proprio per rispondere a questa lacuna, è nata la figura dei Data Steward, un ruolo né puramente tecnico né analitico ma con responsabilità specifica sulla coerenza e l’affidabilità del significato dei dati aziendali. In particolare i Data Steward opera in una dimensione complementare rispetto a engineer e analyst, in cui il primo garantisce il funzionamento dei flussi dei dati e il secondo ne estrae valore e il Data Steward assicura che i dati mantengano un significato univoco e condiviso attraverso l’intera organizzazione. In questa direzione, questo ruolo definisce standard semantici, stabilisce regole di ownership, implementa controlli di plausibilità, valida la coerenza delle metriche critiche.

Non è però sufficiente il semplice inserimento di questa mansione, alla base occorre che ci sia il riconoscimento da parte dell’organizzazione che la qualità dei dati non può essere delegata esclusivamente all’IT, ma deve prevedere una governance distribuita con ownership chiare per ogni asset informativo critico.

In altre parole, occorre coinvolgere sia le funzioni tecniche sia quelle di business nella definizione e nel controllo della qualità informativa formalizzando processi di validazione incrociata, implementando controlli automatici di coerenza, etc. Il risultato è la costruzione di un linguaggio condiviso e di meccanismi strutturati per risolvere discrepanze e incongruenze nei dati prima che questi alimentino le decisioni.

Leggi anche:  Prysmian passa l’intera infrastruttura al cloud con RISE with SAP e apre all’AI generativa di SAP con Joule

Dal dato disponibile al dato affidabile

La disponibilità dei dati è perciò importante ma non è sufficiente: le imprese hanno bisogno di insight affidabili perché basati su dati di qualità e nel giusto numero ma anche coerenti nel loro significato. Solo così possono essere utilizzabili con fiducia per decisioni strategiche.

Il Data Steward assicura che lo stesso dato non venga interpretato in modi diversi da dipendenti di funzioni differenti definendo chiaramente il significato dei dati, evitando fraintendimenti. Per esempio, “cliente fedele” potrebbe significare cose diverse in diversi contesti aziendali, il Data Steward chiarisce esattamente cosa si deve intendere.

Nello stesso tempo stabilisce e formalizza le regole, definizioni e convenzioni sui dati, uniformandole. In sostanza, il Data Steward è il custode della “qualità semantica” dei dati in modo che tutti all’interno dell’organizzazione capiscano in modo univoco cosa significano e come usarli.

La necessità crescente di questa figura conferma che il valore dei dati risiede non solo nella loro quantità, qualità e accessibilità, ma nella loro capacità di essere compresi, condivisi e utilizzati coerentemente e che quindi l’evoluzione verso un’organizzazione data-driven non può fermarsi alla sola implementazione di tecnologie avanzate.