这里 是可汗学院上的便笺簿 由可汗学院用户夏洛特·奥恩创建。 你看到的是一个模拟 它允许我们一直从口香糖球机器抽样 并估计样本占比的 抽样分布。 她的模拟关注的是绿色的口香糖球,但我们之前讨论的 是黄色的的口香糖球,我们讲的是 60%的是黄色,让我们把这里的60%用绿色表示。 抽一个大小为10的样本 就像我们之前做的一样。 先从一个样本开始 取一个样本,我们想要展示的 是百分比 即每个样本中绿色球的占比 如果我找第一个样本,在这10个之中 五个是绿色的,在图上画出来 在这里,小于50% 我们的一个样本中50%是绿色的 取另外一个样本,它有60%是绿色的。 继续下去 再取另一个样本 我们得到一个有50%是绿色的样本 注意这里的分布 两个有50%的绿色。 那么,我们能继续取样, 让我们加快节奏 我们要一次取50个大小为10的样本 这样可以很快得到 比较大量的样本。 在这里有超过1000个样本 有趣的是, 从实验中看出我们的样本 抽样占比的均值 是0.62 按几分钟前我们计算的,它应该是 0.6. 我们还知道抽样占比的标准差 是0.16 我们计算的是大约 0.15 随着样本数的增加,我们应该 更接近这些值。 可以看到,在大多数情况下,我们越来越接近了, 事实上,四舍五入后 我们刚好得出 之前计算过的值。 一个有趣的现象是, 当总体占比不太接近于零时, 并且不接近1 很接近正态分布了。 这说得通 因为我们看到了 抽样占比的分布和 二项随机变数之间的关系。 但是,如果总体占比接近于零呢? 假设总体占比是10% 0.1 你觉得分布 会是什么样? 我们知道抽样分布的均值 将等于10%,所以你可以想象 分布是右偏态的。 我们来看看。 这里我们看到的分布 是右偏的。 这是合理的。 因为,你只能得到从0到1的值。 如果你的均值接近0 那你会看到分布主要在这边 可以看到右边有长的尾巴。 这就造成了右偏。 如果总体比例接近1, 你可以想象相反的情况会发生。 结果会向左倾斜。 我们可以看到,这里是左偏。 另一件有趣的事是, 样本越大,标准差越小。 让我们做总量的分布 在这里。 这和我们之前看到的很相似, 这看起来很正常。 但现在,当样本容量为10时, 但如果每次样本容量都是50呢? 注意,现在分布更紧密了。 这还没到1呢, 但这是一个更紧密的分布。 这是有意义的,样本标准差 关于样本占比,是与n的平方根 是成反比的。 这就说得通了。 希望你们对样本有了直观的理解, 对于样本的占比,它的分布, 关于抽样占比的样本分布,你可以计算它的平均数 和它的标准方差。 你感觉不错 因为我们在模拟中见识过了。