Bellezza e utilità dei dati

Che una persona si occupi di scienze umane o di fisica quantistica, di geologia o di giornalismo, di marketing o di biologia molecolare, oggi, quasi sicuramente, avrà a che fare con i dati.

L’importanza basilare delle misurazioni in senso lato è spesso acquisita e data per scontata. L’argomento, in certi ambienti, è considerato banale, quasi quanto una conversazione sul tempo atmosferico.

Altra ovvietà: le possibilità e le modalità di reperimento dei dati sono aumentate esponenzialmente grazie a Internet. Si pensi a quanto si parla dei famigerati big data o dell’approccio data driven, orgoglio di molte aziende.

Questi ed altri termini, però, sono spesso avvolti da un alone di mistero che, per fortuna, in certi casi, si traduce in volontà di comprensione; in altri, purtroppo, prevale un totale rifiuto, che forse deriva dalla paura della matematica che ci portiamo dietro dai tempi delle scuole medie.

Una delle possibili spiegazioni di questo rigetto potrebbe essere data dall’impossibilità – per chi non è in prima linea – di capire i dati, cioè di fruirne in modo semplice e al contempo efficace, il tutto senza perdere di vista la complessità.

Trasformare i dati in informazione significa passare da una spaventosissima griglia Excel – in cui ognuna delle circa quattrocentocinquantamila celle suddivise in un centinaio di colonne contiene un numerino incomprensibile – a un semplice grafo, possibilmente coloratissimo.

La semplicità visiva permette a molte persone di dare un senso ai dati, ovviamente dopo averli acquisiti e organizzati: dà la possibilità di cogliere l’essenza, di trovare possibili pattern e andamenti nel tempo e nello spazio.

Data visualization, visual information design, data storytelling: chiamiamola come vogliamo, basta che nella pratica offra modalità veloci e – perché no – eleganti per districarsi all’interno della giungla di dati in cui ci spostiamo.

Questo ce lo racconta benissimo David Mc Candless nel suo blog e in un bel TED ma non solo: oltre a questo, di blog che si occupano di visualizzazione di dati ce ne sono molti; io amo molto quello di Flowingdata. Nelle pagine linkate ci sono molti esempi, ma in questa si trova un vero condensato di template adatti ad ogni uso, e il colpo d’occhio non mi sembra affatto male. Qui, qui e qui – inoltre – si possono trovare alcuni tools che sono utilizzabili per la creazione di bellissimi grafi.

Tra i tanti possibili e declinabili alle diverse esigenze, il modello di visualizzazione “a rete” mi affascina moltissimo, ecco un esempio.

Online si possono trovare tools per creare grafi simili a questo, come Kumu. Il network qui sopra – invece – è stato creato grazie al potente programma Gephi, ed in particolare utilizzando il plugin Gephi Twitter streaming importer, che permette di avere a disposizione i dati di Twitter dopo aver facilmente ottenuto le API. Il grafo espone gli elementi di un dataset d’esempio, creato grazie a uno streaming di 10 minuti con la keyword “influencer“. I nodi hanno colori diversi in quanto ho scelto di distinguere le diverse tipologie di dati in entrata e hanno dimensioni diverse in base al numero di link in uscita ed entrata sul singolo nodo.

Sul report 2019 dell’ONIM (Osservatorio Nazionale Influencer Marketing) si legge che il 67,5% degli intervistati dichiara che nei prossimi anni vuole aumentare il budget dedicato – appunto – all’influencer marketing. Gli investimenti sono in crescita, basta solo trovare gli influencer giusti. Rimanendo su Twitter, Followerwonk è imbattibile per questo scopo. Se, però, il mio obiettivo è quello di effettuare una o più ricerche approfondite e ottenere informazioni complete, efficaci e fruibili facilmente con un focus sulle interazioni, posso contare su Gephi, che oltretutto è 100% free.

Torniamo un attimo al grafo di sopra. Mantenendo lo stesso dataset, posso scegliere di rendere in scala i nodi corrispondenti ai profili utente in base al numero di follower che hanno. Così facendo il grafico cambia: otterrò altri nodi blu con un diametro maggiore, sinonimo del fatto che alcuni utenti hanno un numero maggiore di followers rispetto ad altri.

Al di là dei nostri amici influencer, però, ciò che è importante in questi grafi sono i legami: la prospettiva relazionale della network analysis ha come obiettivo quello di analizzare i nodi connessi attraverso link sotto possibili diversi punti di vista. La visione d’insieme è utile e necessaria per cercare di decifrare la struttura della rete e capire dove approfondire restringendo il campo in un secondo momento, per esempio alla ricerca di hub o clusters, parole che oggi sono entrate nel linguaggio corrente e che stanno a significare rispettivamente un nodo iper-connesso e un insieme di nodi strettamente connessi tra loro in virtù di caratteristiche simili.

Un illuminante libro di Albert L. Barabàsi – di facile lettura nonostante il tema sia relativamente complesso – spiega gli elementi principali di questa scienza delle reti, che ha applicazioni diverse: dall’informatica alla biologia molecolare, passando per le digital humanities. Un esempio a mio avviso affascinante permette di capire che strumenti di visualizzazione di questo tipo possono offrire al contempo un focus sul micro e una prospettiva diversa, la famosa visione d’insieme: facciamo un passo indietro e osserviamo, riconnettiamo i riduzionismi.

Sopra si parlava di eleganza, ed ecco che allora chiudiamo con un paio di link per dare una sbirciata a chi, con i dati, crea vere e proprie opere d’arte: Stefanie Posavec e Nathalie Miebach.

Scritto da Francesco Zavattoni, MCI2019

Commenta il post