在这里 是可汗学院的便笺簿 由可汗学院用户夏洛特·奥恩创建。 你在这里看到的,是一个模拟允许 我们一直从口香糖球机器抽样 并估计样本占比的 样本分布。 她的模拟专注于绿色的口香糖球,但我们之前讨论的 是黄色的,并且黄色的口香糖球,我们说 60%的是黄色,让我们把这里的60%用绿色表示。 抽一个大小为10的样本 就像我们之前做的一样。 让我们从一个样本开始 我们找一个样本,我们想要展示的是, 想展示概率 每个样本的占比,如果是绿色的。 如果我找第一个样本,在这十个之中 五个是绿色的,画出图 在这里,小于50% 我们有一种情况,50%的是绿色的,现在 另外一个样本,60%是绿色的。 一直这样, 找另一个样本 现在,我们有50%是绿色的, 注意这里的分布 其中两个有50%的绿色。 现在我们继续找样本, 我们只需要增加 所以,我们要做50个样本,每次10个。 我们可以很快得到一个公平的 很大的样本。 在这里,有超过1000个样本 有趣的是, 从实验上看,我们的样本; 这里样本占比的均值 是0.62 几分钟前我们计算的,它应该是 0.6. 我们还知道样本的标准差 的占比,是0.16 我们计算的是大约 0.15 随着样本数的增加,得到更接近 更接近这些值。 我们可以看到,在大多数情况下,我们越来越接近了, 更接近,事实上,这是四舍五入后的。 我们就在这些值上, 我们之前计算过 一个有趣的现象是, 当总体比例不太接近于零时, 并且不接近1 很接近正态分布了。 这说得通 因为我们看到了抽样占比 的分布和 二项随机变数之间的关系。 但,如果总体占比接近于零呢? 假设总体比例是10% 0.1 你觉得销售情况之后 会是什么样? 我们知道抽样分布的均值 将等于10%,所以你可以想象 分布是右偏态的。 我们来看看。 这里我们看到的分布 是右偏的。 这很有道理。 因为,你只能得到从0到1的值。 如果你的均值接近0,你能 在这里看到你的分布,然后 可以看到右边有长的尾巴。 这就造成了右偏。 如果总体比例接近1, 你可以想象相反的情况会发生。 结果会向左倾斜。 我们可以看到,这里是左偏。 另一件有趣的事是, 样本越大,标准差越小。 让我们做总量的分布 在这里。 这里,这和我们之前看到的很相似, 这看起来很正常。 但现在,当样本容量为10时, 但如果每次样本容量都是50呢? 注意,现在分布更紧密了。 这还没到1呢, 但这是一个更紧密的分布。 这是有意义的,样本标准差 关于样本占比,是与n的平方根 是成反比的。 这就说得通了。 希望你们对样本有了直观的理解,对于样本 的占比,它的分布,样本分布 关于样本占比,你可以计算它的平均数 和它的标准方差。 你感觉不错 因为我们在模拟中见了。