Statisticile sunt convingătoare.
Atât de mult încât oamenii,
organizațiile și multe țări
își bazează cele mai importante decizii
pe acestea.
Dar e o problemă.
Orice statistică poate
avea ceva înșelător în ea,
ceea ce poate întoarce
rezultatele complet pe dos.
De exemplu, imaginează-ți că trebuie
să alegi între două spitale
pentru operația unei rude mai în vârstă.
Din ultimii 1000 de pacienți
din fiecare spital,
900 au supraviețuit în Spitalul A,
pe când doar 800 au supraviețuit
în Spitalul B.
Pare deci că Spitalul A
e alegerea mai bună.
Dar înainte să te hotărăști,
amintește-ți că nu toți pacienții
ajung la spital
în aceeași stare de sănătate.
Și dacă împărțim ultimii
1000 de pacienți ai fiecărui spital
între cei care au ajuns într-o stare bună
și cei care au ajuns într-o stare proastă,
rezultatul începe să arate foarte diferit.
Spitalul A a avut doar 100 de pacienți
ce au ajuns într-o stare proastă,
dintre care 30 au supraviețuit.
Dar Spitalul B a avut 400,
iar ei au reușit să salveze 210.
Deci, Spitalul B e o alegere mai bună
pentru pacienții ce ajung
într-o stare proastă,
cu o rată de supraviețuire de 52,5%.
Dar dacă starea de sănătate a rudei tale
e bună când ajunge la spital?
Poate pare ciudat, dar tot Spitalul B
e cea mai bună alegere,
cu o rată de supraviețuire de peste 98%.
Deci, cum poate Spitalul A să aibă
o rată totală de supraviețuire mai bună
dacă Spitalul B are rate de supraviețuire
mai bune în ambele categorii de pacienți?
Acest fenomen se numește
paradoxul lui Simpson,
în care aceleași date pot părea
că au concluzii diferite
în funcție de cum sunt grupate datele.
Asta se întâmplă când datele agregate
ascund o variabilă condiționată,
alteori cunoscută ca variabilă ascunsă,
ce e un factor adițional
ce influențează semnificativ rezultatele.
Aici factorul ascuns
e proporția relativă de pacienți
ce ajung într-o stare bună
sau proastă de sănătate.
Paradoxul lui Simpson
nu e doar un scenariu ipotetic.
Apare din când în când și în lumea reală,
uneori în contexte importante.
Un studiu din Regatul Unit părea că arată
că fumătorii au o rată de supraviețuire
mai mare decât nefumătorii
pe o perioadă de 20 de ani.
Asta până când au împărțit
participanții pe grupuri de vârstă
și au observat că nefumătorii
erau mult mai în vârstă în medie,
și deci, mult mai susceptibili
să moară în perioada studiului,
fix din cauza faptului
că erau mai longevivi în general.
Aici, grupele de vârstă
sunt variabila ascunsă,
și sunt importante
pentru a interpreta corect datele.
În alt exemplu,
o analiză a cazurilor de condamnare
la moarte din Florida
părea să arate nicio diferență rasială
în cazul sentințelor
între acuzații albi și negri
condamnați pentru omor.
Dar împărțirea cazurilor pe baza
rasei victimei spunea altceva.
În fiecare dintre cazuri,
acuzații de culoare erau mai susceptibili
să fie condamnați la moarte.
Rata puțin mai mare a condamnărilor
pentru acuzații albi
era cauzată de faptul
că cazurile cu victime albe
aveau o probabilitate mai mare
de a conduce la o condamnare la moarte
decât cazurile
în care victima era de culoare,
iar cele mai multe crime au avut loc
între oameni de aceeași rasă.
Deci, cum putem evita acest paradox?
Din păcate nu există o soluție universală.
Datele pot fi grupate
și divizate în multe moduri,
iar numerele totale pot uneori oferi
o concluzie mult mai precisă
decât datele divizate în categorii
înșelătoare sau arbitrare.
Tot ce putem face e să studiem cu atenție
situația exactă pe care studiul o descrie
și să ne gândim dacă ar putea exista
variabile ascunse.
Altfel, vom fi vulnerabili
la cei care folosesc datele
pentru a-i manipula pe ceilalți
pentru a-și promova propria agendă.