0:00:00.470,0:00:01.557 在这里 0:00:01.557,0:00:03.823 是可汗学院的便笺簿 0:00:03.823,0:00:07.956 由可汗学院用户夏洛特·奥恩创建。 0:00:07.956,0:00:11.250 你在这里看到的,是一个模拟允许 0:00:11.250,0:00:13.868 我们一直从口香糖球机器抽样 0:00:13.868,0:00:16.949 并估计样本占比的 0:00:16.949,0:00:18.718 样本分布。 0:00:18.718,0:00:22.628 她的模拟专注于绿色的口香糖球,但我们之前讨论的 0:00:22.628,0:00:25.208 是黄色的,并且黄色的口香糖球,我们说 0:00:25.208,0:00:29.375 60%的是黄色,让我们把这里的60%用绿色表示。 0:00:31.059,0:00:33.193 抽一个大小为10的样本 0:00:33.193,0:00:34.931 就像我们之前做的一样。 0:00:34.931,0:00:37.146 让我们从一个样本开始 0:00:37.146,0:00:39.207 我们找一个样本,我们想要展示的是, 0:00:39.207,0:00:40.334 想展示概率 0:00:40.334,0:00:43.453 每个样本的占比,如果是绿色的。 0:00:43.453,0:00:47.009 如果我找第一个样本,在这十个之中 0:00:47.009,0:00:50.495 五个是绿色的,画出图 0:00:50.495,0:00:52.047 在这里,小于50% 0:00:52.047,0:00:55.461 我们有一种情况,50%的是绿色的,现在 0:00:55.461,0:00:59.321 另外一个样本,60%是绿色的。 0:00:59.321,0:01:01.597 一直这样, 0:01:01.597,0:01:03.080 找另一个样本 0:01:03.080,0:01:07.135 现在,我们有50%是绿色的, 0:01:07.135,0:01:10.272 注意这里的分布 0:01:10.272,0:01:13.474 其中两个有50%的绿色。 0:01:13.474,0:01:15.973 现在我们继续找样本, 0:01:15.973,0:01:18.440 我们只需要增加 0:01:18.440,0:01:22.555 所以,我们要做50个样本,每次10个。 0:01:22.555,0:01:25.400 我们可以很快得到一个公平的 0:01:25.400,0:01:26.883 很大的样本。 0:01:26.883,0:01:29.431 在这里,有超过1000个样本 0:01:29.431,0:01:31.048 有趣的是, 0:01:31.048,0:01:34.551 从实验上看,我们的样本; 0:01:34.551,0:01:36.806 这里样本占比的均值 0:01:36.806,0:01:38.688 是0.62 0:01:38.688,0:01:41.925 几分钟前我们计算的,它应该是 0:01:41.925,0:01:43.442 0.6. 0:01:43.442,0:01:46.813 我们还知道样本的标准差 0:01:46.813,0:01:49.314 的占比,是0.16 0:01:49.314,0:01:51.068 我们计算的是大约 0:01:51.068,0:01:52.727 0.15 0:01:52.727,0:01:55.043 随着样本数的增加,得到更接近 0:01:55.043,0:01:57.734 更接近这些值。 0:01:57.734,0:02:01.971 我们可以看到,在大多数情况下,我们越来越接近了, 0:02:01.971,0:02:03.727 更接近,事实上,这是四舍五入后的。 0:02:03.727,0:02:05.466 我们就在这些值上, 0:02:05.466,0:02:07.718 我们之前计算过 0:02:07.718,0:02:09.915 一个有趣的现象是, 0:02:09.915,0:02:13.602 当总体比例不太接近于零时, 0:02:13.602,0:02:15.157 并且不接近1 0:02:15.157,0:02:18.591 很接近正态分布了。 0:02:18.591,0:02:19.790 这说得通 0:02:19.790,0:02:22.451 因为我们看到了抽样占比 0:02:22.451,0:02:24.532 的分布和 0:02:24.532,0:02:27.682 二项随机变数之间的关系。 0:02:27.682,0:02:32.163 但,如果总体占比接近于零呢? 0:02:32.163,0:02:36.369 假设总体比例是10% 0:02:36.369,0:02:37.698 0.1 0:02:37.698,0:02:38.969 你觉得销售情况之后 0:02:38.969,0:02:40.540 会是什么样? 0:02:40.540,0:02:44.139 我们知道抽样分布的均值 0:02:44.139,0:02:46.566 将等于10%,所以你可以想象 0:02:46.566,0:02:49.320 分布是右偏态的。 0:02:49.320,0:02:51.363 我们来看看。 0:02:51.363,0:02:54.196 这里我们看到的分布 0:02:54.196,0:02:56.196 是右偏的。 0:02:57.244,0:02:58.535 这很有道理。 0:02:58.535,0:03:02.414 因为,你只能得到从0到1的值。 0:03:02.414,0:03:05.869 如果你的均值接近0,你能 0:03:05.869,0:03:07.902 在这里看到你的分布,然后 0:03:07.902,0:03:09.617 可以看到右边有长的尾巴。 0:03:09.617,0:03:12.441 这就造成了右偏。 0:03:12.441,0:03:16.748 如果总体比例接近1, 0:03:16.748,0:03:18.487 你可以想象相反的情况会发生。 0:03:18.487,0:03:21.137 结果会向左倾斜。 0:03:21.137,0:03:25.220 我们可以看到,这里是左偏。 0:03:27.162,0:03:30.196 另一件有趣的事是, 0:03:30.196,0:03:34.599 样本越大,标准差越小。 0:03:34.599,0:03:38.317 让我们做总量的分布 0:03:38.317,0:03:40.105 在这里。 0:03:40.105,0:03:43.972 这里,这和我们之前看到的很相似, 0:03:43.972,0:03:46.688 这看起来很正常。 0:03:46.688,0:03:49.459 但现在,当样本容量为10时, 0:03:49.459,0:03:54.368 但如果每次样本容量都是50呢? 0:03:54.368,0:03:58.535 注意,现在分布更紧密了。 0:04:01.519,0:04:03.632 这还没到1呢, 0:04:03.632,0:04:06.718 但这是一个更紧密的分布。 0:04:06.718,0:04:09.858 这是有意义的,样本标准差 0:04:09.858,0:04:13.568 关于样本占比,是与n的平方根 0:04:13.568,0:04:15.736 是成反比的。 0:04:15.736,0:04:17.309 这就说得通了。 0:04:17.309,0:04:20.337 希望你们对样本有了直观的理解,对于样本 0:04:20.337,0:04:23.486 的占比,它的分布,样本分布 0:04:23.486,0:04:26.685 关于样本占比,你可以计算它的平均数 0:04:26.685,0:04:30.188 和它的标准方差。 0:04:30.188,0:04:31.360 你感觉不错 0:04:31.360,0:04:33.341 因为我们在模拟中见了。