Le statistiche sono persuasive. Così tanto che persone, organizzazioni e intere nazioni basano alcune delle loro decisioni più importanti su dati aggregati. Ma questo pone un problema. Ogni statistica potrebbe nascondere al suo interno qualcosa in grado di capovolgere completamente i risultati. Per esempio, immagina di dover scegliere tra due ospedali per l'operazione di un anziano parente. Analizzando gli ultimi 1000 pazienti di ogni ospedale, 900 sono sopravvissuti nell'ospedale A, mentre solo 800 sono sopravvissuti nell'ospedale B. Sembrerebbe che l'ospedale A sia la scelta migliore. Ma, prima di prendere una decisione, considera che non tutti i pazienti arrivano all'ospedale nello stesso stato di salute. Se dividiamo gli ultimi 1000 pazienti di ogni ospedale in quelli che sono arrivati in buona salute e quelli che sono arrivati in cattiva salute, il quadro inizia a sembrare molto diverso. L'ospedale A ha ricevuto solo 100 pazienti in cattiva salute, di cui 30 sono sopravvissuti. Ma l'ospedale B ne ha ricevuti 400, riuscendo a salvarne 210. Per cui l'ospedale B è una scelta migliore per i pazienti che arrivano in cattiva salute, con una probabilità di sopravvivenza del 52,5%. E se la salute del tuo parente è buona quando arriva in ospedale? Sorprendentemente l'ospedale B resta la scelta migliore, con un tasso di sopravvivenza superiore al 98%. Allora come mai il tasso di sopravvivenza totale dell'ospedale A è superiore se l'ospedale B ha un tasso di sopravvivenza più alto per i pazienti di ognuno dei due gruppi? Quello in cui siamo incappati è un esempio del paradosso di Simpson, dove gli stessi dati sembrano mostrare trend differenti a seconda di come sono raggruppati. Questo accade spesso quando dati aggregati nascondono una variabile condizionata, qualcosa conosciuto come variabile nascosta, che è un fattore nascosto che influenza significativamente i risultati. Qui il fattore nascosto è la proporzione dei pazienti che arrivano in buona o cattiva salute. Il paradosso di Simpson non è solo uno scenario ipotetico. Appare di tanto in tanto nel mondo reale, a volte in contesti importanti. Uno studio in Inghilterra sembrò mostrare che i fumatori avevano un tasso di sopravvivenza superiore ai non fumatori su un periodo di 20 anni. Questo fino a che si divisero i partecipati per gruppi d'età e si vide che i non fumatori erano in media significativamente più vecchi, e quindi era più facile che morissero durante il periodo del test proprio perché, in generale, avevano vissuto più a lungo. In questo caso, i gruppi d'età sono la variabile nascosta e sono indispensabili per interpretare correttamente i dati. In un altro esempio, un'analisi dei casi di pena di morte in Florida sembrò mostrare l'assenza di disparità razziale nelle sentenze tra gli accusati di omicidio bianchi e neri. Ma dividere i casi per la razza delle vittime diede risultati diversi. In entrambe le situazioni, gli accusati neri avevano più probabilità di una sentenza capitale. La percentuale un po' più alta di bianchi condannati alla sentenza capitale era dovuta al fatto che i casi con vittime bianche ottenevano più spesso la sentenza capitale rispetto ai casi con vittime nere, e la maggior parte degli omicidi avveniva tra persone della stessa razza. Quindi come possiamo evitare di cadere in questo paradosso? Sfortunatamente, non esiste nessuna risposta che vada sempre bene. I dati possono essere raggruppati e divisi in moltissimi modi e le cifre complessive in alcuni casi possono dare un'immagine più corretta rispetto ai dati raggruppati in categorie arbitrarie o fuorvianti. Tutto ciò che possiamo fare è studiare attentamente la situazione reale descritta dalla statistica e considerare se possono essere presenti delle variabili nascoste. Se no saremo vulnerabili nei confronti di coloro che vorrebbero usare i dati per manipolare gli altri e promuovere i propri obiettivi.