WEBVTT 00:00:06.636 --> 00:00:09.077 統計には説得力があります 00:00:09.077 --> 00:00:12.541 それはそれは強力なので 人々や組織 そして国が 00:00:12.541 --> 00:00:17.747 最も重要な決定を下すときには データを参考にします 00:00:17.747 --> 00:00:19.484 でもここに ある問題があります 00:00:19.484 --> 00:00:23.301 どんな統計でも その中に潜んでいるものが 00:00:23.301 --> 00:00:27.251 結果を全く逆に してしまうことがあるのです 00:00:27.251 --> 00:00:30.920 例えば 年をとった親戚の手術のため 00:00:30.920 --> 00:00:33.737 2つの病院から1つを 選ばねばならないとしましょう 00:00:33.737 --> 00:00:36.434 各病院の直近1000人の患者のうち 00:00:36.434 --> 00:00:39.612 A病院では900人が生存していましたが 00:00:39.612 --> 00:00:43.021 B病院では800人だけでした 00:00:43.021 --> 00:00:46.170 するとA病院を選ぶのが 良いように見えます 00:00:46.170 --> 00:00:47.843 でも決断する前に 00:00:47.843 --> 00:00:51.411 思い出してください 来院する患者の健康度は 00:00:51.411 --> 00:00:53.811 全員が同一ではありません 00:00:53.811 --> 00:00:56.703 各病院の直近1000人の患者を 00:00:56.703 --> 00:01:01.132 健康状態が良い者と 悪い者とに分けてみると 00:01:01.132 --> 00:01:03.772 見えてくる状況は 大きく変わってきます 00:01:03.772 --> 00:01:07.849 A病院では 健康状態が悪い患者は たった100人しか来ておらず 00:01:07.849 --> 00:01:10.325 そのうち30人が生存していますが 00:01:10.325 --> 00:01:14.852 B病院には状態の悪い患者が400人来て 210人を救うことができました 00:01:14.852 --> 00:01:17.169 だから健康状態が悪い患者の場合は 00:01:17.169 --> 00:01:20.741 B病院を選ぶ方が良いんです 00:01:20.741 --> 00:01:24.526 生存率は52.5%です 00:01:24.526 --> 00:01:28.445 ではその親戚の健康状態が 受診時に良好だったとしたら? 00:01:28.445 --> 00:01:32.271 不思議なことに B病院の方が やはり良い選択なんです 00:01:32.271 --> 00:01:35.676 生存率は98%です 00:01:35.676 --> 00:01:38.733 ではどちらのグループの生存率も B病院が勝っているのに 00:01:38.733 --> 00:01:44.830 どうしてA病院の生存率の方が 総計では上になるのでしょう? 00:01:44.830 --> 00:01:48.589 私たちが陥っているのは 「シンプソンのパラドックス」です 00:01:48.589 --> 00:01:51.899 同一のデータでも グループの分け方によって 00:01:51.899 --> 00:01:54.664 逆の傾向を示すことがあるんです 00:01:54.664 --> 00:01:58.744 これがよく起きるのは 集められたデータが ある条件変数を隠し持っているときです 00:01:58.744 --> 00:02:01.377 それはときに 潜伏変数と言われるもので 00:02:01.377 --> 00:02:06.584 結果に重要な影響を与えるような 隠れた別の要因のことです 00:02:06.584 --> 00:02:10.023 ここでの隠れた要因とは 訪れる患者の健康状態に関する 00:02:10.023 --> 00:02:13.264 相対的な比率です 00:02:13.264 --> 00:02:16.544 シンプトンのパラドックスは 単なる仮説ではありません 00:02:16.544 --> 00:02:18.924 現実の世界にときどき 現れているんです 00:02:18.924 --> 00:02:22.132 重要な場面でも起こっています 00:02:22.132 --> 00:02:24.130 英国でのある研究では 00:02:24.130 --> 00:02:27.600 喫煙者が非喫煙者よりも 00:02:27.600 --> 00:02:29.846 20年間にわたり 高い生存率を示しました 00:02:29.846 --> 00:02:33.307 しかし対象者を 年齢で区分してみると 00:02:33.307 --> 00:02:37.823 非喫煙者の平均年齢が 明らかに高いことが分かりました 00:02:37.823 --> 00:02:40.930 したがって 研究期間中に 死亡する確率がより高いわけです 00:02:40.930 --> 00:02:44.438 そもそも長く生きていますからね 00:02:44.438 --> 00:02:47.286 ここでは年齢が潜伏変数であり 00:02:47.286 --> 00:02:50.176 それに基づくグループ分けは 正確なデータ解釈に不可欠です 00:02:50.176 --> 00:02:51.559 別の例は 00:02:51.559 --> 00:02:54.281 フロリダの死刑に関する分析です 00:02:54.281 --> 00:02:58.265 殺人で有罪となった被告が 黒人か白人かで 00:02:58.265 --> 00:03:01.581 死刑宣告について人種の偏りは 全く見られませんでした 00:03:01.581 --> 00:03:06.396 しかし被害者の人種でグループ分けすると 別の結果が見えてきました 00:03:06.396 --> 00:03:07.969 被害者がどちらの場合でも 00:03:07.969 --> 00:03:11.091 黒人の被告の方が 死刑宣告の確率が高かったのです 00:03:11.091 --> 00:03:15.066 白人被告の死刑宣告率が 総計するとわずかに高かったのは 00:03:15.066 --> 00:03:18.692 被害者が白人の場合 00:03:18.692 --> 00:03:21.359 被害者が黒人の場合よりも 00:03:21.359 --> 00:03:24.091 死刑判決が下されやすく 00:03:24.091 --> 00:03:28.483 大半の殺人は同じ人種間で 起きていたからです 00:03:28.483 --> 00:03:31.319 ではこのパラドックスに陥るのを どうすれば避けられるでしょう? 00:03:31.319 --> 00:03:34.686 あいにく万能の答えはありません 00:03:34.686 --> 00:03:38.504 データはどのようにも グループ化 または分割できるうえ 00:03:38.504 --> 00:03:42.106 誤解を招く あるいは恣意的な形で カテゴリ化されたデータより 00:03:42.106 --> 00:03:46.638 総計の方が正確である場合もあります 00:03:46.638 --> 00:03:52.089 私たちにできることは その統計が示す現実の状況を慎重に調べ 00:03:52.089 --> 00:03:55.977 潜伏変数が存在する可能性を 検討することです 00:03:55.977 --> 00:03:59.378 そうでないとデータで他人を操って 00:03:59.378 --> 00:04:02.649 自分の方針を通そうとする人たちに対し 私たちは無防備になってしまいます