WEBVTT 00:00:00.470 --> 00:00:01.557 在这里 00:00:01.557 --> 00:00:03.823 是可汗学院的便笺簿 00:00:03.823 --> 00:00:07.956 由可汗学院用户夏洛特·奥恩创建。 00:00:07.956 --> 00:00:11.250 你在这里看到的,是一个模拟允许 00:00:11.250 --> 00:00:13.868 我们一直从口香糖球机器抽样 00:00:13.868 --> 00:00:16.949 并估计样本占比的 00:00:16.949 --> 00:00:18.718 样本分布。 00:00:18.718 --> 00:00:22.628 她的模拟专注于绿色的口香糖球,但我们之前讨论的 00:00:22.628 --> 00:00:25.208 是黄色的,并且黄色的口香糖球,我们说 00:00:25.208 --> 00:00:29.375 60%的是黄色,让我们把这里的60%用绿色表示。 00:00:31.059 --> 00:00:33.193 抽一个大小为10的样本 00:00:33.193 --> 00:00:34.931 就像我们之前做的一样。 00:00:34.931 --> 00:00:37.146 让我们从一个样本开始 00:00:37.146 --> 00:00:39.207 我们找一个样本,我们想要展示的是, 00:00:39.207 --> 00:00:40.334 想展示概率 00:00:40.334 --> 00:00:43.453 每个样本的占比,如果是绿色的。 00:00:43.453 --> 00:00:47.009 如果我找第一个样本,在这十个之中 00:00:47.009 --> 00:00:50.495 五个是绿色的,画出图 00:00:50.495 --> 00:00:52.047 在这里,小于50% 00:00:52.047 --> 00:00:55.461 我们有一种情况,50%的是绿色的,现在 00:00:55.461 --> 00:00:59.321 另外一个样本,60%是绿色的。 00:00:59.321 --> 00:01:01.597 一直这样, 00:01:01.597 --> 00:01:03.080 找另一个样本 00:01:03.080 --> 00:01:07.135 现在,我们有50%是绿色的, 00:01:07.135 --> 00:01:10.272 注意这里的分布 00:01:10.272 --> 00:01:13.474 其中两个有50%的绿色。 00:01:13.474 --> 00:01:15.973 现在我们继续找样本, 00:01:15.973 --> 00:01:18.440 我们只需要增加 00:01:18.440 --> 00:01:22.555 所以,我们要做50个样本,每次10个。 00:01:22.555 --> 00:01:25.400 我们可以很快得到一个公平的 00:01:25.400 --> 00:01:26.883 很大的样本。 00:01:26.883 --> 00:01:29.431 在这里,有超过1000个样本 00:01:29.431 --> 00:01:31.048 有趣的是, 00:01:31.048 --> 00:01:34.551 从实验上看,我们的样本; 00:01:34.551 --> 00:01:36.806 这里样本占比的均值 00:01:36.806 --> 00:01:38.688 是0.62 00:01:38.688 --> 00:01:41.925 几分钟前我们计算的,它应该是 00:01:41.925 --> 00:01:43.442 0.6. 00:01:43.442 --> 00:01:46.813 我们还知道样本的标准差 00:01:46.813 --> 00:01:49.314 的占比,是0.16 00:01:49.314 --> 00:01:51.068 我们计算的是大约 00:01:51.068 --> 00:01:52.727 0.15 00:01:52.727 --> 00:01:55.043 随着样本数的增加,得到更接近 00:01:55.043 --> 00:01:57.734 更接近这些值。 00:01:57.734 --> 00:02:01.971 我们可以看到,在大多数情况下,我们越来越接近了, 00:02:01.971 --> 00:02:03.727 更接近,事实上,这是四舍五入后的。 00:02:03.727 --> 00:02:05.466 我们就在这些值上, 00:02:05.466 --> 00:02:07.718 我们之前计算过 00:02:07.718 --> 00:02:09.915 一个有趣的现象是, 00:02:09.915 --> 00:02:13.602 当总体比例不太接近于零时, 00:02:13.602 --> 00:02:15.157 并且不接近1 00:02:15.157 --> 00:02:18.591 很接近正态分布了。 00:02:18.591 --> 00:02:19.790 这说得通 00:02:19.790 --> 00:02:22.451 因为我们看到了抽样占比 00:02:22.451 --> 00:02:24.532 的分布和 00:02:24.532 --> 00:02:27.682 二项随机变数之间的关系。 00:02:27.682 --> 00:02:32.163 但,如果总体占比接近于零呢? 00:02:32.163 --> 00:02:36.369 假设总体比例是10% 00:02:36.369 --> 00:02:37.698 0.1 00:02:37.698 --> 00:02:38.969 你觉得销售情况之后 00:02:38.969 --> 00:02:40.540 会是什么样? 00:02:40.540 --> 00:02:44.139 我们知道抽样分布的均值 00:02:44.139 --> 00:02:46.566 将等于10%,所以你可以想象 00:02:46.566 --> 00:02:49.320 分布是右偏态的。 00:02:49.320 --> 00:02:51.363 我们来看看。 00:02:51.363 --> 00:02:54.196 这里我们看到的分布 00:02:54.196 --> 00:02:56.196 是右偏的。 00:02:57.244 --> 00:02:58.535 这很有道理。 00:02:58.535 --> 00:03:02.414 因为,你只能得到从0到1的值。 00:03:02.414 --> 00:03:05.869 如果你的均值接近0,你能 00:03:05.869 --> 00:03:07.902 在这里看到你的分布,然后 00:03:07.902 --> 00:03:09.617 可以看到右边有长的尾巴。 00:03:09.617 --> 00:03:12.441 这就造成了右偏。 00:03:12.441 --> 00:03:16.748 如果总体比例接近1, 00:03:16.748 --> 00:03:18.487 你可以想象相反的情况会发生。 00:03:18.487 --> 00:03:21.137 结果会向左倾斜。 00:03:21.137 --> 00:03:25.220 我们可以看到,这里是左偏。 00:03:27.162 --> 00:03:30.196 另一件有趣的事是, 00:03:30.196 --> 00:03:34.599 样本越大,标准差越小。 00:03:34.599 --> 00:03:38.317 让我们做总量的分布 00:03:38.317 --> 00:03:40.105 在这里。 00:03:40.105 --> 00:03:43.972 这里,这和我们之前看到的很相似, 00:03:43.972 --> 00:03:46.688 这看起来很正常。 00:03:46.688 --> 00:03:49.459 但现在,当样本容量为10时, 00:03:49.459 --> 00:03:54.368 但如果每次样本容量都是50呢? 00:03:54.368 --> 00:03:58.535 注意,现在分布更紧密了。 00:04:01.519 --> 00:04:03.632 这还没到1呢, 00:04:03.632 --> 00:04:06.718 但这是一个更紧密的分布。 00:04:06.718 --> 00:04:09.858 这是有意义的,样本标准差 00:04:09.858 --> 00:04:13.568 关于样本占比,是与n的平方根 00:04:13.568 --> 00:04:15.736 是成反比的。 00:04:15.736 --> 00:04:17.309 这就说得通了。 00:04:17.309 --> 00:04:20.337 希望你们对样本有了直观的理解,对于样本 00:04:20.337 --> 00:04:23.486 的占比,它的分布,样本分布 00:04:23.486 --> 00:04:26.685 关于样本占比,你可以计算它的平均数 00:04:26.685 --> 00:04:30.188 和它的标准方差。 00:04:30.188 --> 00:04:31.360 你感觉不错 00:04:31.360 --> 00:04:33.341 因为我们在模拟中见了。