Così gli LLM possono supportare la creazione di dati sintetici e sicuri per il settore pubblico

Così gli LLM possono supportare la creazione di dati sintetici e sicuri per il settore pubblico

Gli esperti di SAS delineano come l’intelligenza artificiale potrà evolversi nel 2026 quale aiuto concreto alle amministrazioni

In che modo il settore pubblico gestisce i dati sensibili per scopi di ricerca, formazione e test? E quanto l’uso dell’IA generativa può migliorare tali attività, magari offrendo maggiore sicurezza? Secondo gli esperti di SAS, entro il 2026, i governi utilizzeranno più modelli linguistici di grandi dimensioni, gli LLM, per generare dati testuali sintetici, riducendo la complessità di documenti riservati senza comprometterne la sicurezza. Non si tratta di fantascienza: alcuni enti pubblici hanno già iniziato a sperimentare queste tecnologie con risultati promettenti.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Il concetto di dati sintetici si riferisce a informazioni generate algoritmicamente che imitano dati reali senza contenere alcuna traccia di fonti concrete. A differenza dei tradizionali dataset strutturati come i fogli di calcolo, questi sistemi possono produrre anche contenuti non strutturati come testi, immagini o video. La differenza è che nessuna informazione personale o classificata viene esposta nel processo.

Le amministrazioni pubbliche si trovano spesso in una situazione paradossale: pur disponendo di grandi quantità di dati pubblici, mancano completamente di accesso ad altri tipi di informazioni essenziali per sviluppare soluzioni tecnologiche avanzate. Le email aziendali per dimostrare capacità di rilevamento delle minacce interne, i dati dell’intelligence, le note mediche dei dottori o i rapporti delle forze dell’ordine sono quasi impossibili da ottenere per scopi di ricerca e sviluppo.  La vera sfida tecnica emersa durante le sperimentazioni riguarda la creatività limitata dei modelli linguistici quando utilizzati da soli. Se viene chiesto di generare un insieme diversificato di dati per analisi, questi sistemi tendono a produrre risultati ripetitivi e poco realistici. La soluzione individuata da SAS combina l’intelligenza artificiale con approcci ibridi: utilizzando dati pubblici esistenti insieme a regole euristiche randomizzate, è possibile indirizzare le “allucinazioni” del modello nella direzione desiderata.

Leggi anche:  Ricerca globale SoftwareOne: ottimizzazione dei costi IT per alimentare l'innovazione

Un esempio concreto di questa metodologia riguarda la simulazione di scenari di rischio interno nelle organizzazioni. Per creare email realistiche che dimostrino potenziali minacce, i ricercatori hanno fornito ai modelli linguistici frammenti casuali estratti dal famoso dataset Enron, incluso nel pubblico dominio dopo lo scandalo finanziario. In un caso, partendo da un semplice riferimento alle sedie contenuto nei dati originali, il sistema ha generato autonomamente una storia complessa su una fuga di notizie riguardante la disposizione dei posti a sedere e le relative strategie di controllo dei danni.  Le applicazioni pratiche per il settore pubblico sono numerose e strategiche. Gli enti governativi potrebbero sviluppare e addestrare modelli di intelligenza artificiale senza rischiare l’esposizione di informazioni personali sensibili, garantendo conformità normativa e riducendo i rischi per la privacy. Vi è la concreta possibilità di formare sia operatori umani che sistemi automatizzati nell’interpretazione di cartelle cliniche, utilizzando migliaia di documenti medici completamente inventati ma realistici.

Le agenzie potrebbero utilizzare rapporti, comunicazioni diplomatiche simulate, segnalazioni di eventi avversi, trascrizioni di chiamate inesistenti e contratti legali inventati per addestrare e testare tutto, dai protocolli di risposta alle emergenze ai sistemi di rilevamento di frodi e sprechi. Un approccio che risulta particolarmente prezioso per eventi rari difficili da catturare nei dataset reali, come minacce di violenza sul posto di lavoro, rischi di spionaggio o altre situazioni critiche.  La questione della qualità e dell’affidabilità rimane centrale. Affidarsi esclusivamente a un modello linguistico per validare i risultati prodotti da un altro modello linguistico crea un circolo vizioso costoso e potenzialmente problematico. Per questo motivo, diventa fondamentale implementare sistemi di controllo avanzati basati su capacità analitiche testuali consolidate, sviluppate e perfezionate nel corso degli anni, che possano garantire la solidità dei dati sintetici generati.  L’adozione di queste tecnologie accelera la trasformazione digitale delle pubbliche amministrazioni permettendo la condivisione sicura dei dati, abbattendo i silos informativi che tradizionalmente ostacolano la collaborazione tra diverse agenzie.

Leggi anche:  Cofincaf ha scelto il cloud di ReeVo per la migrazione del proprio sistema AS/400

La possibilità di accedere a dataset diversificati contribuisce inoltre a ridurre i bias presenti nei dati esistenti, un problema sempre più riconosciuto come critico nello sviluppo di sistemi di intelligenza artificiale equi ed efficaci. Gli analisti di SAS prevedono che entro il 2030 i dati sintetici potrebbero superare quelli reali nello sviluppo dell’intelligenza artificiale, specialmente per applicazioni che richiedono testo non strutturato. Questo cambiamento non rappresenta semplicemente una soluzione alternativa temporanea, ma una rivoluzione metodologica destinata a ridefinire ricerca, formazione e testing in molteplici settori. Servono investimenti continui nella qualità dei dati, una governance e una fattiva collaborazione tra esseri umani e intelligenza artificiale, per creare soluzioni tecnologiche di supporto e on di sostituzione sistemica.