0:00:06.636,0:00:09.077 Le statistiche sono persuasive. 0:00:09.077,0:00:12.541 Così tanto che persone,[br]organizzazioni e intere nazioni 0:00:12.541,0:00:17.547 basano alcune delle loro decisioni[br]più importanti su dati aggregati. 0:00:17.707,0:00:19.484 Ma questo pone un problema. 0:00:19.484,0:00:23.301 Ogni statistica potrebbe[br]nascondere al suo interno 0:00:23.301,0:00:27.251 qualcosa in grado di capovolgere[br]completamente i risultati. 0:00:27.251,0:00:30.920 Per esempio, immagina[br]di dover scegliere tra due ospedali 0:00:30.920,0:00:33.607 per l'operazione di un anziano parente. 0:00:33.737,0:00:36.434 Analizzando gli ultimi 1000 pazienti[br]di ogni ospedale, 0:00:36.434,0:00:39.612 900 sono sopravvissuti nell'ospedale A, 0:00:39.612,0:00:42.841 mentre solo 800 sono sopravvissuti[br]nell'ospedale B. 0:00:43.021,0:00:46.170 Sembrerebbe che l'ospedale A[br]sia la scelta migliore. 0:00:46.170,0:00:47.843 Ma, prima di prendere[br]una decisione, 0:00:47.843,0:00:51.411 considera che non tutti i pazienti[br]arrivano all'ospedale 0:00:51.411,0:00:53.811 nello stesso stato di salute. 0:00:53.811,0:00:56.703 Se dividiamo gli ultimi 1000 pazienti[br]di ogni ospedale 0:00:56.703,0:00:58.922 in quelli che sono arrivati[br]in buona salute 0:00:58.922,0:01:01.132 e quelli che sono arrivati[br]in cattiva salute, 0:01:01.132,0:01:03.772 il quadro inizia a sembrare molto diverso. 0:01:03.772,0:01:07.849 L'ospedale A ha ricevuto solo[br]100 pazienti in cattiva salute, 0:01:07.849,0:01:10.325 di cui 30 sono sopravvissuti. 0:01:10.325,0:01:14.672 Ma l'ospedale B ne ha ricevuti 400,[br]riuscendo a salvarne 210. 0:01:14.852,0:01:17.169 Per cui l'ospedale B[br]è una scelta migliore 0:01:17.169,0:01:20.741 per i pazienti che arrivano[br]in cattiva salute, 0:01:20.741,0:01:24.526 con una probabilità[br]di sopravvivenza del 52,5%. 0:01:24.526,0:01:28.445 E se la salute del tuo parente[br]è buona quando arriva in ospedale? 0:01:28.445,0:01:32.271 Sorprendentemente l'ospedale B[br]resta la scelta migliore, 0:01:32.271,0:01:35.676 con un tasso di sopravvivenza[br]superiore al 98%. 0:01:35.676,0:01:39.296 Allora come mai il tasso di sopravvivenza[br]totale dell'ospedale A è superiore 0:01:39.296,0:01:41.830 se l'ospedale B ha un tasso[br]di sopravvivenza più alto 0:01:41.830,0:01:44.470 per i pazienti di ognuno dei due gruppi? 0:01:44.830,0:01:48.589 Quello in cui siamo incappati[br]è un esempio del paradosso di Simpson, 0:01:48.589,0:01:51.899 dove gli stessi dati[br]sembrano mostrare trend differenti 0:01:51.899,0:01:53.874 a seconda di come[br]sono raggruppati. 0:01:53.874,0:01:56.874 Questo accade spesso quando dati aggregati 0:01:56.874,0:01:58.744 nascondono una variabile condizionata, 0:01:58.744,0:02:01.377 qualcosa conosciuto come[br]variabile nascosta, 0:02:01.377,0:02:06.354 che è un fattore nascosto che influenza[br]significativamente i risultati. 0:02:06.354,0:02:10.023 Qui il fattore nascosto[br]è la proporzione dei pazienti 0:02:10.023,0:02:13.264 che arrivano in buona o cattiva salute. 0:02:13.264,0:02:16.544 Il paradosso di Simpson[br]non è solo uno scenario ipotetico. 0:02:16.544,0:02:18.924 Appare di tanto in tanto nel mondo reale, 0:02:18.924,0:02:22.132 a volte in contesti importanti. 0:02:22.132,0:02:24.130 Uno studio in Inghilterra sembrò mostrare 0:02:24.130,0:02:27.600 che i fumatori avevano un tasso[br]di sopravvivenza superiore ai non fumatori 0:02:27.600,0:02:29.846 su un periodo di 20 anni. 0:02:29.846,0:02:33.307 Questo fino a che si divisero[br]i partecipati per gruppi d'età 0:02:33.307,0:02:37.823 e si vide che i non fumatori erano[br]in media significativamente più vecchi, 0:02:37.823,0:02:40.930 e quindi era più facile che morissero[br]durante il periodo del test 0:02:40.930,0:02:44.438 proprio perché, in generale,[br]avevano vissuto più a lungo. 0:02:44.438,0:02:47.286 In questo caso, i gruppi d'età[br]sono la variabile nascosta 0:02:47.286,0:02:50.176 e sono indispensabili[br]per interpretare correttamente i dati. 0:02:50.176,0:02:52.009 In un altro esempio, un'analisi 0:02:52.009,0:02:54.281 dei casi di pena di morte in Florida 0:02:54.281,0:02:58.265 sembrò mostrare l'assenza[br]di disparità razziale nelle sentenze 0:02:58.265,0:03:01.581 tra gli accusati di omicidio[br]bianchi e neri. 0:03:01.581,0:03:06.396 Ma dividere i casi per la razza[br]delle vittime diede risultati diversi. 0:03:06.396,0:03:07.969 In entrambe le situazioni, 0:03:07.969,0:03:11.131 gli accusati neri avevano più probabilità[br]di una sentenza capitale. 0:03:11.131,0:03:15.066 La percentuale un po' più alta di bianchi[br]condannati alla sentenza capitale 0:03:15.066,0:03:18.692 era dovuta al fatto che[br]i casi con vittime bianche 0:03:18.692,0:03:21.359 ottenevano più spesso la sentenza capitale 0:03:21.359,0:03:24.091 rispetto ai casi con vittime nere, 0:03:24.091,0:03:28.483 e la maggior parte degli omicidi[br]avveniva tra persone della stessa razza. 0:03:28.483,0:03:31.319 Quindi come possiamo evitare[br]di cadere in questo paradosso? 0:03:31.319,0:03:34.686 Sfortunatamente, non esiste[br]nessuna risposta che vada sempre bene. 0:03:34.686,0:03:38.504 I dati possono essere raggruppati[br]e divisi in moltissimi modi 0:03:38.504,0:03:42.266 e le cifre complessive in alcuni casi[br]possono dare un'immagine più corretta 0:03:42.266,0:03:46.638 rispetto ai dati raggruppati[br]in categorie arbitrarie o fuorvianti. 0:03:46.638,0:03:49.089 Tutto ciò che possiamo fare[br]è studiare attentamente 0:03:49.089,0:03:52.089 la situazione reale[br]descritta dalla statistica 0:03:52.089,0:03:55.787 e considerare se possono essere presenti[br]delle variabili nascoste. 0:03:55.787,0:03:59.378 Se no saremo vulnerabili nei confronti[br]di coloro che vorrebbero usare i dati 0:03:59.378,0:04:02.799 per manipolare gli altri[br]e promuovere i propri obiettivi.