Ricercatori trovano materiale pedopornografico in archivi di addestramento IA

Ricercatori trovano materiale pedopornografico in archivi di addestramento IA

L’organizzazione no-profit LAION-5B gestisce gli archivi sotto accusa

I ricercatori dello Stanford Internet Observatory affermano che un set di dati utilizzato per addestrare gli strumenti di generazione di immagini di intelligenza artificiale contiene almeno 1.008 casi convalidati di materiale pedopornografico. Questo potrebbe consentire ai modelli di intelligenza artificiale di generare istanze nuove e persino realistiche di immagini e video illegali. LAION, l’organizzazione no-profit che ha creato il set di dati, ha dichiarato a 404 Media che “ha una politica di tolleranza zero per i contenuti illegali e quindi stiamo temporaneamente rimuovendo i set per garantire che siano sicuri prima di ripubblicarli”. L’organizzazione ha aggiunto che, prima di condividere i propri archivi, ha creato dei filtri per rilevare e rimuovere da essi i contenuti illegali. Tuttavia, 404 sottolinea che l’azienda fosse consapevole almeno dal 2021 che esisteva la possibilità che i loro sistemi rilevassero materiale simile, ottenuto dalle ricerche di miliardi di immagini da internet. Secondo precedenti rapporti, il set di dati LAION-5B in questione contiene “milioni di immagini di pornografia, violenza, nudità infantile, meme razzisti, simboli di odio, opere d’arte protette da copyright e opere prelevate da siti di società private”. 

Complessivamente, l’archivio comprende più di 5 miliardi di immagini e relative didascalie descrittive. Il fondatore della LAION, Christoph Schuhmann, ha dichiarato all’inizio di quest’anno di non essere a conoscenza della presenza di materiale di tale calibro. Per la maggior parte degli istituti negli Stati Uniti è illegale visualizzare materiale pedopornografico a scopo di verifica. Pertanto, i ricercatori di Stanford hanno utilizzato diverse tecniche per cercare potenziali illeciti, usando ”il rilevamento basato sull’hash percettivo, sull’hash crittografico e l’analisi dei dati prossimi sfruttando gli incorporamenti di immagini nel set di dati stesso”. In questo modo, sono riusciti a trovare 3.226 voci che contenevano sospetto materiale pedopornografico. Molte di queste immagini sono state confermate da terze parti, ad esempio il PhotoDNA e il Centro canadese per la protezione dell’infanzia. Il fondatore di Stability AI, Emad Mostaque, ha addestrato Stable Diffusion utilizzando un sottoinsieme di dati LAION-5B. Anche la prima versione di ricerca del modello testo-immagine Imagen di Google è stata addestrata su LAION-400M, ma non è mai stata rilasciata.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Leggi anche:  Wikipedia compie 23 anni