Stai leggendo Gente che conta, la newsletter che ogni 15 giorni ti racconta la storia di una persona legata al mondo dei dati, dell'intelligenza artificiale o della tecnologia, insomma: qualcuno che ha contato qualcosa, in senso letterale.
La storia di oggi è quella di John Tukey, che osservava i dati come fossero stelle nel cielo notturno. Immagina di essere seduto con lui ad un tavolo, mentre disegna linee e cerchi su un foglio di carta e inventa il primo box plot della storia. “Guarda,” dice, “questo è il quartile, e qui c’è l’outlier!”.
E tu annuisci, anche se non hai idea di cosa stia dicendo.
💭 Un po’ di gossip su John Tukey
La storia di John Tukey, da come ha iniziato a quello che ha fatto per meritarsi un posto in questa newsletter.
John Tukey, un tipo brillante con una mente che traboccava di idee, ha lasciato un’impronta indelebile nel mondo della matematica e della statistica. Immagina un uomo con gli occhiali spessi, sempre immerso nei numeri e nelle formule e con un sorriso contagioso.
Nato nel 1915 a New Bedford, nel Massachusetts, fin da bambino, John aveva un debole per i numeri. Mentre gli altri ragazzi giocavano a nascondino, lui risolveva enigmistica ed equazioni. Dopo essersi laureato in chimica alla Brown University, ha deciso di cambiare rotta e dedicarsi alla matematica, ottenendo il dottorato a Princeton.
Negli anni '40, mentre il mondo era impegnato con la Seconda Guerra Mondiale, Tukey stava già pensando al futuro. Lavorando con il geniale Claude Shannon, ha contribuito a sviluppare la teoria dell'informazione, una pietra miliare che ha posto le basi per l'era digitale. Ma non si è fermato lì.
Sai chi ha coniato il termine "software"? Esatto, proprio Tukey! Era il 1958, e il nostro amico John stava riflettendo sul fatto che i computer non erano solo macchine fisiche, ma anche entità che eseguivano programmi, quindi… software, appunto.
E poi c'è stata la statistica: il suo vero amore. Tukey non si è limitato a giocare con i numeri, ha inventato nuovi metodi per analizzare i dati e ha rivoluzionato la statistica esplorativa.
La scoperta della trasformata di Fourier veloce (FFT), ad esempio, ha rivoluzionato il modo in cui elaboriamo segnali e analizziamo dati, e ha salvato la sanità mentale di un buon 80% degli studenti di ingegneria di tutto il mondo. Prima di Tukey, calcolare la trasformata di Fourier richiedeva un tempo considerevole ma lui, con la sua genialità, ha creato un metodo più efficiente che ha reso tutto più veloce.
Ma Tukey non era solo un matematico chiuso nel suo mondo. Aveva una personalità vivace e un approccio pratico alle cose. Amava collaborare con altri scienziati e lavorava con un'energia contagiosa che ispirava tutti intorno a lui. È stato consulente per AT&T Bell Labs per anni, contribuendo a risolvere problemi reali con le sue intuizioni matematiche.
💡 Quella volta che John Tukey ha fatto colpo
L’idea geniale di John Tukey che ha fatto dire a tutti: “Wow, perché non ci ho pensato prima?”
Immagina di essere negli anni '70. La musica rock riempie le strade e la moda è tutta un'esplosione di colori. Ma in un angolo tranquillo del mondo accademico, c’è John Tukey, immerso nel suo lavoro, che cerca di capire come sviluppare un metodo che permetta di interpretare rapidamente grandi quantità di dati, senza perdersi in calcoli complessi. Voleva uno strumento che fosse chiaro, visivo e immediato, un po’ come le canzoni che in quel periodo andavano forte in radio.
E così, ispirato dalla sua incessante curiosità e dal desiderio di semplificare la complessità, John Tukey creò il box plot. Questo grafico a prima vista può sembrare solo una semplice scatola con delle linee, ma in realtà è un riassunto visivo incredibilmente potente delle caratteristiche di un set di dati.
Il box plot, o diagramma a scatola, si compone di cinque parti fondamentali:
1. La mediana: la linea all'interno della scatola che divide il set di dati in due metà uguali. È il punto centrale che ci dice dove si trova il valore mediano, cioè che se ordiniamo tutti i valori della nostra scatola quello in mezzo sta proprio lì.
2. Il primo e il terzo quartile: i bordi della scatola rappresentano il 25° e il 75° percentile, cioè i valori che delimitano il primo e il terzo quarto dei dati.
3. I baffi: le linee che si estendono dai bordi della scatola mostrano la variabilità al di fuori del quartile superiore e inferiore, ma solo fino a un certo punto (di solito 1,5 volte l'intervallo interquartile). Questi baffi ci dicono dove si trovano la maggior parte dei dati.
4. Gli outlier: i punti che si trovano al di fuori dei baffi sono i valori anomali, quelli che si distaccano dalla maggior parte dei dati. Come quando giocando a briscola trovi nel mazzo un re di cuori: non ha alcun senso che stia lì, probabilmente ci è finito per sbaglio e quindi meglio ignorarlo.
Con questo semplice grafico, Tukey riuscì a condensare una marea di informazioni in un formato visivo compatto e facilmente interpretabile. Un box plot ti mostra immediatamente dove si trova la maggior parte dei dati, quanto sono sparsi e se ci sono valori anomali che potrebbero richiedere un'ulteriore indagine.
☕ Un caffè con John Tukey
Cosa ci racconterebbe John Tukey davanti a un caffè? Viaggiamo nel tempo* e scopriamolo!
La visualizzazione dei dati è, secondo me, cruciale per l'intelligenza umana nel trattare con informazioni complesse. È come il linguaggio visivo che traduce il misterioso mondo dei numeri in qualcosa di tangibile e comprensibile.
Un grafico efficace è come una mappa che illumina il terreno oscuro dei dati. Deve essere chiaro, semplice, ma anche profondo nelle sue implicazioni. Deve rivelare le tendenze nascoste e le variazioni significative con un solo sguardo. Un buon grafico non è solo una rappresentazione visiva dei numeri, ma una storia che emerge dalle cifre stesse.
L'efficacia di un grafico risiede nella sua capacità di comunicare immediatamente, senza bisogno di spiegazioni complesse. Deve cogliere l'essenza dei dati, evidenziando i punti cruciali e trasmettendo informazioni senza ambiguità. È come una finestra che apre nuove prospettive sulle relazioni tra variabili e fenomeni, aiutando a formulare ipotesi e a prendere decisioni informate.
Nella mia esperienza, ho visto come una semplice rappresentazione visiva possa illuminare discussioni accademiche e risolvere problemi pratici. È un ponte tra la teoria e la realtà, tra la mente e il mondo esterno. Ecco perché ho sempre sostenuto l'importanza di insegnare ai miei studenti non solo a calcolare e analizzare, ma anche a vedere e a interpretare attraverso grafici chiari e accurati.
In definitiva, un buon grafico non è solo una comoda forma di presentazione dei dati, ma una potente arma intellettuale che consente di esplorare e comprendere il mondo complesso che ci circonda.
(* Chiediamo a GPT-4 di emulare il nostro protagonista e rispondere al suo posto)
⏩ E poi che è successo?
Che impatti ha avuto l’idea di John Tukey sul mondo di oggi?
Il box plot, o diagramma a scatola, ha avuto un impatto significativo nel mondo contemporaneo, soprattutto nei campi della statistica, della ricerca scientifica, dell'analisi dei dati e della visualizzazione delle informazioni.
Ha semplificato l'analisi dei dati: Grazie a questo strumento, è possibile ottenere una panoramica rapida delle distribuzioni dei dati, individuare la presenza di outliers e valutare la variabilità senza la necessità di eseguire calcoli complessi.
E’ una visualizzazione intuitiva: La sua natura visuale permette di comunicare efficacemente caratteristiche chiave di un set di dati a un pubblico non tecnico. È diventato uno strumento indispensabile per chiunque debba presentare dati in modo chiaro e convincente, dalle riunioni aziendali alle pubblicazioni accademiche.
E’ uno strumento versatile ed educativo: Il box plot è utilizzato in una vasta gamma di discipline, tra cui medicina, biologia, economia, ingegneria, e molte altre. Ovunque ci siano dati da analizzare e interpretare, il box plot offre un metodo rapido ed efficace per farlo.
È ampiamente insegnato e utilizzato nei corsi di statistica e analisi dei dati. Aiuta gli studenti a sviluppare competenze critiche nell'interpretazione visuale dei dati e nella comprensione delle loro distribuzioni.
Grazie a John Tukey e alla sua incessante sete di conoscenza, oggi abbiamo uno strumento che rende la statistica più accessibile e comprensibile per tutti. Il box plot è un perfetto esempio di come la semplicità possa essere incredibilmente potente, trasformando una montagna di numeri in una storia visiva che tutti possono leggere e comprendere. Un vero capolavoro della scienza dei dati, nato dall'intuizione di un uomo che sapeva vedere oltre i numeri.
👣 Sulle orme di John Tukey
Link a risorse utili come blog, progetti, corsi e libri per saperne di più.
Il paper di John Tukey The Future of Data Analysis
Una spiegazione tecnica ed esaustiva di cosa sono i box plot
La lezione di Khan Academy sui box plot, con annesso quiz per vedere quanto sei bravo a leggerli
Un tutorial di Datacamp per creare i box plot in python
Se la storia di John Tukey ti ha appassionato, condividila con i tuoi amici!
Grazie per aver letto Gente che conta! Appuntamento fra 15 giorni per scoprire una nuova storia! Se ancora non lo hai fatto, iscriviti per ricevere i nuovi post direttamente sulla tua mail!
Per consigli, curiosità, proporre nuove storie o anche solo per dire “ciao”, rispondi a questa e-mail!
Io sono Marilena Pintagro, business data analyst a cui piace scoprire le storie delle persone dietro ai dati. Se vuoi restare in contatto seguimi su X o colleghiamoci su LinkedIn!
Disclaimer: i link Amazon presenti in questa newsletter sono affiliati. Tutte le altre risorse consigliate, salvo dove espressamente segnalato, non sono affiliate o sponsorizzate in alcun modo.