A cura di Francesco Lucantoni Software Engineer di Prima Assicurazioni
“Data is the new oil”. La celebre frase, attribuita all’imprenditore e matematico Clive Humby, è diventata negli anni uno dei mantra della trasformazione digitale. L’idea è intuitiva: così come il petrolio ha alimentato l’economia industriale del Novecento, i dati rappresentano oggi la materia prima che alimenta l’economia digitale.
Il paragone con il petrolio è calzante. Il greggio, infatti, ha valore soltanto dopo essere stato estratto, raffinato e distribuito. Allo stesso modo, i dati grezzi accumulati nei database aziendali non generano automaticamente valore.
Negli ultimi anni il volume di informazioni prodotte è cresciuto a ritmi impressionanti. Ogni acquisto online, ogni accesso a un’app, ogni pagamento digitale e ogni evento generato da un sistema contribuiscono ad alimentare enormi flussi di dati. In questo scenario, il vantaggio competitivo non deriva più semplicemente dal possedere i dati, ma dalla capacità di elaborarli velocemente.
Pensiamo ad un’azienda come Prima Assicurazioni. Prima elabora quotidianamente grandi moli di dati relativi alle quotazioni, ai sinistri, ai pagamenti, all’interazione con i clienti e tanto altro. Attendere ore o giorni per elaborare questi dati potrebbe significare perdere opportunità, aumentare i costi o peggiorare l’esperienza del cliente.
Per questo motivo le organizzazioni moderne come Prima stanno investendo sempre di più in tecnologie capaci di analizzare grandi quantità di dati con tempi di risposta ridotti. Non si tratta soltanto di archiviare informazioni, ma di costruire vere e proprie “catene di montaggio digitali” in grado di trasformare dati grezzi in decisioni operative.
È in questo contesto che entrano in gioco alcuni strumenti diventati fondamentali nel mondo della data analytics e della data engineering.
Pandas: il coltellino svizzero dell’analisi dati
Con un nome che rimanda al goffo urside cinese, pandas, è uno standard di fatto nell’ecosistema Python. Pandas consente di leggere, pulire, trasformare e analizzare dati strutturati attraverso un modello basato sulle cosiddette DataFrame, tabelle simili ai fogli di calcolo ma molto più potenti.
Grazie alla sua semplicità e alla ricchezza di funzionalità, Pandas è spesso il primo strumento utilizzato da data analyst e data scientist per esplorare dataset e costruire analisi.
Rilasciato per la prima volta nel 2008, per anni ha rappresentato il punto di riferimento per l’elaborazione dati su singola macchina. Ciononostante pochi conoscono i suoi segreti, la sua storia e i suoi limiti. Da questa osservazione è nata l’idea per un talk dal titolo “Tutto quello che avreste voluto sapere su pandas, ma non avete mai osato chiedere”, che ho presentato in due importanti conferenze rivolte ai tecnici del linguaggio Python: la PyCon Italia a Bologna e l’EuroPython a Cracovia.
Polars: la nuova generazione delle DataFrame
Con la crescita dei volumi di dati sono emerse nuove esigenze di performance. Da qui il successo crescente di Polars, una libreria relativamente giovane progettata per essere estremamente veloce ed efficiente.
Il nome è una chiara allusione a quello del suo predecessore, ma questa volta viene preso a riferimento uno dei più aggressivi ursidi carnivori, l’orso polare.
Polars sfrutta tecniche moderne di ottimizzazione e un’architettura pensata per utilizzare al meglio le risorse hardware disponibili. A livello concettuale offre funzionalità simili a Pandas, ma con prestazioni spesso superiori su dataset di grandi dimensioni. Per questo motivo sta attirando sempre più attenzione nella comunità dei professionisti dei dati.
Spark: quando i dati diventano giganteschi
Quando il volume di informazioni supera le capacità di una singola macchina, entra in scena Apache Spark. Si tratta di una piattaforma distribuita progettata per elaborare dati su cluster composti da decine, centinaia o migliaia di server.
Spark suddivide il lavoro tra molte macchine che operano in parallelo, consentendo di gestire dataset di dimensioni enormi. È uno degli strumenti più utilizzati nelle grandi organizzazioni per attività di data engineering, machine learning e analisi su scala industriale.
Dal possesso all’elaborazione
La vera lezione dell’era digitale è che i dati, da soli, non bastano. Se il petrolio deve essere raffinato per diventare carburante, i dati devono essere elaborati per diventare conoscenza. E in un mercato sempre più veloce, la rapidità con cui questa trasformazione avviene può fare la differenza tra guidare il cambiamento o subirlo.
Le tecnologie come Pandas, Polars e Spark rappresentano strumenti diversi per affrontare la stessa sfida: trasformare enormi quantità di informazioni in valore concreto. Perché oggi il vantaggio competitivo non appartiene a chi possiede più dati, ma a chi riesce a comprenderli e utilizzarli nel minor tempo possibile.


































