1 00:00:00,470 --> 00:00:01,557 在这里 2 00:00:01,557 --> 00:00:03,823 是可汗学院的便笺簿 3 00:00:03,823 --> 00:00:07,956 由可汗学院用户夏洛特·奥恩创建。 4 00:00:07,956 --> 00:00:11,250 你在这里看到的,是一个模拟允许 5 00:00:11,250 --> 00:00:13,868 我们一直从口香糖球机器抽样 6 00:00:13,868 --> 00:00:16,949 并估计样本占比的 7 00:00:16,949 --> 00:00:18,718 样本分布。 8 00:00:18,718 --> 00:00:22,628 她的模拟专注于绿色的口香糖球,但我们之前讨论的 9 00:00:22,628 --> 00:00:25,208 是黄色的,并且黄色的口香糖球,我们说 10 00:00:25,208 --> 00:00:29,375 60%的是黄色,让我们把这里的60%用绿色表示。 11 00:00:31,059 --> 00:00:33,193 抽一个大小为10的样本 12 00:00:33,193 --> 00:00:34,931 就像我们之前做的一样。 13 00:00:34,931 --> 00:00:37,146 让我们从一个样本开始 14 00:00:37,146 --> 00:00:39,207 我们找一个样本,我们想要展示的是, 15 00:00:39,207 --> 00:00:40,334 想展示概率 16 00:00:40,334 --> 00:00:43,453 每个样本的占比,如果是绿色的。 17 00:00:43,453 --> 00:00:47,009 如果我找第一个样本,在这十个之中 18 00:00:47,009 --> 00:00:50,495 五个是绿色的,画出图 19 00:00:50,495 --> 00:00:52,047 在这里,小于50% 20 00:00:52,047 --> 00:00:55,461 我们有一种情况,50%的是绿色的,现在 21 00:00:55,461 --> 00:00:59,321 另外一个样本,60%是绿色的。 22 00:00:59,321 --> 00:01:01,597 一直这样, 23 00:01:01,597 --> 00:01:03,080 找另一个样本 24 00:01:03,080 --> 00:01:07,135 现在,我们有50%是绿色的, 25 00:01:07,135 --> 00:01:10,272 注意这里的分布 26 00:01:10,272 --> 00:01:13,474 其中两个有50%的绿色。 27 00:01:13,474 --> 00:01:15,973 现在我们继续找样本, 28 00:01:15,973 --> 00:01:18,440 我们只需要增加 29 00:01:18,440 --> 00:01:22,555 所以,我们要做50个样本,每次10个。 30 00:01:22,555 --> 00:01:25,400 我们可以很快得到一个公平的 31 00:01:25,400 --> 00:01:26,883 很大的样本。 32 00:01:26,883 --> 00:01:29,431 在这里,有超过1000个样本 33 00:01:29,431 --> 00:01:31,048 有趣的是, 34 00:01:31,048 --> 00:01:34,551 从实验上看,我们的样本; 35 00:01:34,551 --> 00:01:36,806 这里样本占比的均值 36 00:01:36,806 --> 00:01:38,688 是0.62 37 00:01:38,688 --> 00:01:41,925 几分钟前我们计算的,它应该是 38 00:01:41,925 --> 00:01:43,442 0.6. 39 00:01:43,442 --> 00:01:46,813 我们还知道样本的标准差 40 00:01:46,813 --> 00:01:49,314 的占比,是0.16 41 00:01:49,314 --> 00:01:51,068 我们计算的是大约 42 00:01:51,068 --> 00:01:52,727 0.15 43 00:01:52,727 --> 00:01:55,043 随着样本数的增加,得到更接近 44 00:01:55,043 --> 00:01:57,734 更接近这些值。 45 00:01:57,734 --> 00:02:01,971 我们可以看到,在大多数情况下,我们越来越接近了, 46 00:02:01,971 --> 00:02:03,727 更接近,事实上,这是四舍五入后的。 47 00:02:03,727 --> 00:02:05,466 我们就在这些值上, 48 00:02:05,466 --> 00:02:07,718 我们之前计算过 49 00:02:07,718 --> 00:02:09,915 一个有趣的现象是, 50 00:02:09,915 --> 00:02:13,602 当总体比例不太接近于零时, 51 00:02:13,602 --> 00:02:15,157 并且不接近1 52 00:02:15,157 --> 00:02:18,591 很接近正态分布了。 53 00:02:18,591 --> 00:02:19,790 这说得通 54 00:02:19,790 --> 00:02:22,451 因为我们看到了抽样占比 55 00:02:22,451 --> 00:02:24,532 的分布和 56 00:02:24,532 --> 00:02:27,682 二项随机变数之间的关系。 57 00:02:27,682 --> 00:02:32,163 但,如果总体占比接近于零呢? 58 00:02:32,163 --> 00:02:36,369 假设总体比例是10% 59 00:02:36,369 --> 00:02:37,698 0.1 60 00:02:37,698 --> 00:02:38,969 你觉得销售情况之后 61 00:02:38,969 --> 00:02:40,540 会是什么样? 62 00:02:40,540 --> 00:02:44,139 我们知道抽样分布的均值 63 00:02:44,139 --> 00:02:46,566 将等于10%,所以你可以想象 64 00:02:46,566 --> 00:02:49,320 分布是右偏态的。 65 00:02:49,320 --> 00:02:51,363 我们来看看。 66 00:02:51,363 --> 00:02:54,196 这里我们看到的分布 67 00:02:54,196 --> 00:02:56,196 是右偏的。 68 00:02:57,244 --> 00:02:58,535 这很有道理。 69 00:02:58,535 --> 00:03:02,414 因为,你只能得到从0到1的值。 70 00:03:02,414 --> 00:03:05,869 如果你的均值接近0,你能 71 00:03:05,869 --> 00:03:07,902 在这里看到你的分布,然后 72 00:03:07,902 --> 00:03:09,617 可以看到右边有长的尾巴。 73 00:03:09,617 --> 00:03:12,441 这就造成了右偏。 74 00:03:12,441 --> 00:03:16,748 如果总体比例接近1, 75 00:03:16,748 --> 00:03:18,487 你可以想象相反的情况会发生。 76 00:03:18,487 --> 00:03:21,137 结果会向左倾斜。 77 00:03:21,137 --> 00:03:25,220 我们可以看到,这里是左偏。 78 00:03:27,162 --> 00:03:30,196 另一件有趣的事是, 79 00:03:30,196 --> 00:03:34,599 样本越大,标准差越小。 80 00:03:34,599 --> 00:03:38,317 让我们做总量的分布 81 00:03:38,317 --> 00:03:40,105 在这里。 82 00:03:40,105 --> 00:03:43,972 这里,这和我们之前看到的很相似, 83 00:03:43,972 --> 00:03:46,688 这看起来很正常。 84 00:03:46,688 --> 00:03:49,459 但现在,当样本容量为10时, 85 00:03:49,459 --> 00:03:54,368 但如果每次样本容量都是50呢? 86 00:03:54,368 --> 00:03:58,535 注意,现在分布更紧密了。 87 00:04:01,519 --> 00:04:03,632 这还没到1呢, 88 00:04:03,632 --> 00:04:06,718 但这是一个更紧密的分布。 89 00:04:06,718 --> 00:04:09,858 这是有意义的,样本标准差 90 00:04:09,858 --> 00:04:13,568 关于样本占比,是与n的平方根 91 00:04:13,568 --> 00:04:15,736 是成反比的。 92 00:04:15,736 --> 00:04:17,309 这就说得通了。 93 00:04:17,309 --> 00:04:20,337 希望你们对样本有了直观的理解,对于样本 94 00:04:20,337 --> 00:04:23,486 的占比,它的分布,样本分布 95 00:04:23,486 --> 00:04:26,685 关于样本占比,你可以计算它的平均数 96 00:04:26,685 --> 00:04:30,188 和它的标准方差。 97 00:04:30,188 --> 00:04:31,360 你感觉不错 98 00:04:31,360 --> 00:04:33,341 因为我们在模拟中见了。