Analisi esplorativa dei dati. Come utilizzare gli elementi grafici per visualizzare i dati

Come utilizzare gli elementi grafici per visualizzare i dati

Che cosa significa comunicazione visiva dei dati? Non esiste un percorso unico per intraprendere questa attività in modo efficace. Lo specialista di data visualization Andy Kirk ci guida alla scoperta delle capacità tecniche, pratiche e concettuali per vedere i dati da tutte le angolazioni possibili

La maggior parte dell’attenzione nella visualizzazione dei dati si concentra sul suo ruolo come mezzo per comunicare i dati ad altri. Tuttavia, questo rappresenta solo un lato della medaglia, in quanto c’è un altro scopo fondamentale, che è quello di aiutarci, in qualità di analisti, a esplorare i dati. Le immagini aiutano a integrare l’analisi statistica, offrendo tecniche che ci permettono di interrogare a fondo i dati per portare alla luce insights e qualità che altrimenti potrebbero essere nascoste alla vista. Come descrisse una volta il matematico John Tukey – “l’analisi esplorativa dei dati (EDA, exploratory data analysis) è più un atteggiamento, una flessibilità e un affidamento al display che non un insieme di tecniche”. E come ho descritto nella seconda edizione aggiornata del mio libro “Data Visualisation: A Handbook for Data Driven Design”, non esiste un unico percorso per intraprendere questa attività in modo efficace, in quanto richiede una serie di diverse capacità tecniche, pratiche e concettuali come l’istinto dell’analista, il ragionamento, i tipi di grafico e la conoscenza della materia.

L’istinto dell’analista

L’atteggiamento e la flessibilità descritti da Tukey riguardano il riconoscimento dell’importanza dei tratti dell’analista. L’EDA efficace non riguarda lo strumento. Ci sono molti vendor che magnificano i loro dispositivi come l’opzione magica “punta e clicca” che svelerà scoperte profonde. La tecnologia gioca inevitabilmente un ruolo chiave nel facilitare queste fatiche, ma non bisogna sottovalutare il valore di un buon analista che è probabilmente più rilevante delle caratteristiche di differenziazione tra uno strumento e l’altro. In assenza di una procedura definita per effettuare l’EDA, l’analista deve possedere la capacità di riconoscere e perseguire una “scia” di indagine. Un buon analista avrà quella speciale miscela di curiosità naturale e di sensibilità per sapere quali approcci (statistici o visivi) impiegare e quando.

Il ragionamento

L’efficienza è un aspetto particolarmente importante di questa attività di esplorazione. L’atto di interrogare i dati può richiedere molto tempo ed energia. Anche con set di dati più piccoli si può essere tentati di provare una miriade di combinazioni di analisi diverse. Il ragionamento è un tentativo di aiutare a ridurre la portata di questa sfida. Con così tanti metodi statistici e visivi a disposizione degli analisti, è raramente possibile scatenare l’intera artiglieria esplorativa. Ricorrere all’EDA significa essere intelligenti, riconoscendo che è necessario essere esigenti riguardo alle proprie tattiche. Nel mondo accademico ci sono due distinzioni negli approcci al ragionamento, ovvero deduttivo e induttivo, che ritengo siano utilmente applicate in questa discussione. Il ragionamento deduttivo è mirato: si ha un’ipotesi specifica, inquadrata dalla conoscenza della materia, e si interrogheranno i dati per determinare se ci sono prove di rilevanza o interesse nel risultato conclusivo, adottando la mentalità di un detective, tipo Sherlock Holmes. Ciò aiuterà a confermare le cose che si ritiene di sapere, oltre ad aiutare a indagare sulle cose che si sa di non sapere.

Leggi anche:  Qlik tra i leader del Magic Quadrant per Analytics e BI

A volte, la conseguenza di questo ragionamento non è ottenere risposte, ma avere una migliore comprensione delle domande chiave. Il ragionamento induttivo è di natura molto più aperta: si “giocherà” con i dati, basandosi inizialmente su un’intuizione da verificare, e poi si aspetterà e si vedrà cosa emerge. In un certo senso, è come fare ricerche, e sperare in quel momento di serendipity quando si scopre l’oro. Si manterrà una mente aperta, lasciando che il flusso della scoperta abbatta permutazioni potenzialmente inaspettate. È importante darsi spazio per intraprendere questi viaggi esplorativi un po’ meno strutturati.

Dalla casualità all’analisi

Tendo a pensare all’EDA confrontandolo con la sfida di risolvere il puzzle visivo “Dov’è Wally?”. Il processo per trovare Wally sembra casuale. Si tende a iniziare lasciando che gli occhi corrano intorno alla scena come un cane che è appena stato fatto uscire dall’auto e sta saettando attraverso un campo. Dopo l’esplosione iniziale di casualità, forse inconsciamente, si passa attraverso un processo più ponderato di analisi visiva. L’eliminazione avviene lavorando attorno a diverse parti della scena e dichiarando in sequenza le zone “Wally-free”. Questo aiuta la concentrazione e la strategia su dove guardare dopo. Mentre ci si sposta attraverso ogni mini scena, si stanno abbinando i modelli, cercando le caratteristiche del ragazzo che indossa gli occhiali, un cappello e un maglione a righe bianche e rosse e pantaloni blu. L’obiettivo di tutto questo è chiaro e univoco nella definizione. La sfida dell’EDA raramente è così netta. Ci sarà sempre una fonte di curiosità da seguire e si potrebbero trovare prove della presenza di “Wally” da qualche parte nei dati. Tuttavia, a differenza della sfida “Dov’è Wally?”, con l’EDA si ha anche la possibilità di trovare altre risposte. Cose che potrebbero alterare la portata di ciò che si qualifica come interessante e rilevante. Nel portare alla luce altre scoperte, si potrebbe determinare che Wally non interessa più e che trovarlo non rappresenta più l’indagine principale.

Leggi anche:  Zero Trust, il futuro della cybersecurity

I tipi di grafico

Si tratta di vedere i dati da tutte le angolazioni possibili. Il potere della percezione visiva significa che possiamo facilmente fare affidamento sulle nostre capacità di abbinamento di modelli e di creazione di senso, in armonia con la conoscenza contestuale della materia, per fare osservazioni sui nostri dati. Visualizzando i dati per noi stessi, siamo in grado di stabilire una maggiore conoscenza delle caratteristiche dei valori dei dati, come grandezza, distribuzione, relazioni ed eccezioni. Le visualizzazioni aiutano ad andare oltre. Si scopre cosa c’è nei dati ma soprattutto cosa non c’è dentro. Ogni tipo di grafico offre una visualizzazione diversa dei dati e facilita osservazioni specifiche. È necessario conoscere le capacità e i limiti di ciascun tipo di grafico per capire come e quando distribuirli. Bisogna anche sviluppare il vocabolario grafico, abbracciando una gamma più ampia di opzioni, non limitandosi al ristretto insieme di approcci provati e affidabili. Come con l’alfabetizzazione statistica, ampliare l’alfabetizzazione visiva allargherà la visione potenziale dei dati.

La conoscenza della materia

Condurre un’analisi esplorativa senza la necessaria conoscenza del dominio della materia lascia esposti a diversi rischi: si potrebbe non sapere se ciò che si sta vedendo è significativo o inaspettato. L’approccio per rafforzare la conoscenza di un argomento è in gran parte buon senso: si esplorano i luoghi (libri, siti web) e si consultano le persone (esperti, colleghi) che collettivamente daranno le migliori possibilità di porre le giuste domande ai dati e di conoscere come interpretare le risposte che ricevi.

Non c’è nulla da vedere qui?

Se non si è trovato nulla di rilevante allora è stato raggiunto un punto morto. Nonostante aver provato tutti gli angoli di attacco immaginabili, non si è scoperto alcun significato in nessuna relazione, e fondamentalmente non si è trovato nulla di “interessante” sui modelli e sulla forma dei dati. Cosa si fa a questo punto? In queste situazioni, è la scoperta del “niente da vedere e sentire” che può aiutare a sviluppare la concentrazione, eliminando le dimensioni dell’analisi possibile. Se vi sono attributi di “nulla” nei dati – lacune, nulli, zeri – si potrebbe anche scoprire che proprio questi si riveleranno l’insight fondamentale.

Leggi anche:  Check Point Software e Lutech per la next gen security

C’è sempre qualcosa di interessante nei dati. Se un valore non è cambiato nel tempo, forse avrebbe dovuto farlo: questo è un insight. Se tutto è della stessa dimensione, questa è la storia. Se non c’è alcun significato nelle quantità, nelle categorie o nelle relazioni spaziali, si saprà che questi risultati sono rilevanti solo comprendendo veramente il contesto dell’argomento. Questo è il motivo per cui bisogna sforzarsi il più possibile per convertire il maggior numero di ignoti in noti.


Andy Kirk

Specialista di data visualisation. Consulente, docente, speaker, autore, ricercatore ed editore del sito pluripremiato www.visualisingdata.com. Freelance dal 2011, con all’attivo più di 270 workshop e conferenze in 26 Paesi. Fra i suoi clienti: Spotify, Telefonica, Google, il Consiglio Europeo e il CERN. È autore del notissimo libro sulla visualizzazione dei dati “Visualising Data: A Handbook for Data Driven Design”, alla sua seconda edizione (SAGE, 2019).

Andy Kirk presenterà per Technology Transfer il seminario “Data Visualisation: efficace comunicazione visiva dei dati” che si terrà online live streaming l’8-9 novembre 2021.