[Script Info] Title: [Events] Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text Dialogue: 0,0:00:00.47,0:00:01.56,Default,,0000,0000,0000,,在这里 Dialogue: 0,0:00:01.56,0:00:03.82,Default,,0000,0000,0000,,是可汗学院的便笺簿 Dialogue: 0,0:00:03.82,0:00:07.96,Default,,0000,0000,0000,,由可汗学院用户夏洛特·奥恩创建。 Dialogue: 0,0:00:07.96,0:00:11.25,Default,,0000,0000,0000,,你在这里看到的,是一个模拟允许 Dialogue: 0,0:00:11.25,0:00:13.87,Default,,0000,0000,0000,,我们一直从口香糖球机器抽样 Dialogue: 0,0:00:13.87,0:00:16.95,Default,,0000,0000,0000,,并估计样本占比的 Dialogue: 0,0:00:16.95,0:00:18.72,Default,,0000,0000,0000,,样本分布。 Dialogue: 0,0:00:18.72,0:00:22.63,Default,,0000,0000,0000,,她的模拟专注于绿色的口香糖球,但我们之前讨论的 Dialogue: 0,0:00:22.63,0:00:25.21,Default,,0000,0000,0000,,是黄色的,并且黄色的口香糖球,我们说 Dialogue: 0,0:00:25.21,0:00:29.38,Default,,0000,0000,0000,,60%的是黄色,让我们把这里的60%用绿色表示。 Dialogue: 0,0:00:31.06,0:00:33.19,Default,,0000,0000,0000,,抽一个大小为10的样本 Dialogue: 0,0:00:33.19,0:00:34.93,Default,,0000,0000,0000,,就像我们之前做的一样。 Dialogue: 0,0:00:34.93,0:00:37.15,Default,,0000,0000,0000,,让我们从一个样本开始 Dialogue: 0,0:00:37.15,0:00:39.21,Default,,0000,0000,0000,,我们找一个样本,我们想要展示的是, Dialogue: 0,0:00:39.21,0:00:40.33,Default,,0000,0000,0000,,想展示概率 Dialogue: 0,0:00:40.33,0:00:43.45,Default,,0000,0000,0000,,每个样本的占比,如果是绿色的。 Dialogue: 0,0:00:43.45,0:00:47.01,Default,,0000,0000,0000,,如果我找第一个样本,在这十个之中 Dialogue: 0,0:00:47.01,0:00:50.50,Default,,0000,0000,0000,,五个是绿色的,画出图 Dialogue: 0,0:00:50.50,0:00:52.05,Default,,0000,0000,0000,,在这里,小于50% Dialogue: 0,0:00:52.05,0:00:55.46,Default,,0000,0000,0000,,我们有一种情况,50%的是绿色的,现在 Dialogue: 0,0:00:55.46,0:00:59.32,Default,,0000,0000,0000,,另外一个样本,60%是绿色的。 Dialogue: 0,0:00:59.32,0:01:01.60,Default,,0000,0000,0000,,一直这样, Dialogue: 0,0:01:01.60,0:01:03.08,Default,,0000,0000,0000,,找另一个样本 Dialogue: 0,0:01:03.08,0:01:07.14,Default,,0000,0000,0000,,现在,我们有50%是绿色的, Dialogue: 0,0:01:07.14,0:01:10.27,Default,,0000,0000,0000,,注意这里的分布 Dialogue: 0,0:01:10.27,0:01:13.47,Default,,0000,0000,0000,,其中两个有50%的绿色。 Dialogue: 0,0:01:13.47,0:01:15.97,Default,,0000,0000,0000,,现在我们继续找样本, Dialogue: 0,0:01:15.97,0:01:18.44,Default,,0000,0000,0000,,我们只需要增加 Dialogue: 0,0:01:18.44,0:01:22.56,Default,,0000,0000,0000,,所以,我们要做50个样本,每次10个。 Dialogue: 0,0:01:22.56,0:01:25.40,Default,,0000,0000,0000,,我们可以很快得到一个公平的 Dialogue: 0,0:01:25.40,0:01:26.88,Default,,0000,0000,0000,,很大的样本。 Dialogue: 0,0:01:26.88,0:01:29.43,Default,,0000,0000,0000,,在这里,有超过1000个样本 Dialogue: 0,0:01:29.43,0:01:31.05,Default,,0000,0000,0000,,有趣的是, Dialogue: 0,0:01:31.05,0:01:34.55,Default,,0000,0000,0000,,从实验上看,我们的样本; Dialogue: 0,0:01:34.55,0:01:36.81,Default,,0000,0000,0000,,这里样本占比的均值 Dialogue: 0,0:01:36.81,0:01:38.69,Default,,0000,0000,0000,,是0.62 Dialogue: 0,0:01:38.69,0:01:41.92,Default,,0000,0000,0000,,几分钟前我们计算的,它应该是 Dialogue: 0,0:01:41.92,0:01:43.44,Default,,0000,0000,0000,,0.6. Dialogue: 0,0:01:43.44,0:01:46.81,Default,,0000,0000,0000,,我们还知道样本的标准差 Dialogue: 0,0:01:46.81,0:01:49.31,Default,,0000,0000,0000,,的占比,是0.16 Dialogue: 0,0:01:49.31,0:01:51.07,Default,,0000,0000,0000,,我们计算的是大约 Dialogue: 0,0:01:51.07,0:01:52.73,Default,,0000,0000,0000,,0.15 Dialogue: 0,0:01:52.73,0:01:55.04,Default,,0000,0000,0000,,随着样本数的增加,得到更接近 Dialogue: 0,0:01:55.04,0:01:57.73,Default,,0000,0000,0000,,更接近这些值。 Dialogue: 0,0:01:57.73,0:02:01.97,Default,,0000,0000,0000,,我们可以看到,在大多数情况下,我们越来越接近了, Dialogue: 0,0:02:01.97,0:02:03.73,Default,,0000,0000,0000,,更接近,事实上,这是四舍五入后的。 Dialogue: 0,0:02:03.73,0:02:05.47,Default,,0000,0000,0000,,我们就在这些值上, Dialogue: 0,0:02:05.47,0:02:07.72,Default,,0000,0000,0000,,我们之前计算过 Dialogue: 0,0:02:07.72,0:02:09.92,Default,,0000,0000,0000,,一个有趣的现象是, Dialogue: 0,0:02:09.92,0:02:13.60,Default,,0000,0000,0000,,当总体比例不太接近于零时, Dialogue: 0,0:02:13.60,0:02:15.16,Default,,0000,0000,0000,,并且不接近1 Dialogue: 0,0:02:15.16,0:02:18.59,Default,,0000,0000,0000,,很接近正态分布了。 Dialogue: 0,0:02:18.59,0:02:19.79,Default,,0000,0000,0000,,这说得通 Dialogue: 0,0:02:19.79,0:02:22.45,Default,,0000,0000,0000,,因为我们看到了抽样占比 Dialogue: 0,0:02:22.45,0:02:24.53,Default,,0000,0000,0000,,的分布和 Dialogue: 0,0:02:24.53,0:02:27.68,Default,,0000,0000,0000,,二项随机变数之间的关系。 Dialogue: 0,0:02:27.68,0:02:32.16,Default,,0000,0000,0000,,但,如果总体占比接近于零呢? Dialogue: 0,0:02:32.16,0:02:36.37,Default,,0000,0000,0000,,假设总体比例是10% Dialogue: 0,0:02:36.37,0:02:37.70,Default,,0000,0000,0000,,0.1 Dialogue: 0,0:02:37.70,0:02:38.97,Default,,0000,0000,0000,,你觉得销售情况之后 Dialogue: 0,0:02:38.97,0:02:40.54,Default,,0000,0000,0000,,会是什么样? Dialogue: 0,0:02:40.54,0:02:44.14,Default,,0000,0000,0000,,我们知道抽样分布的均值 Dialogue: 0,0:02:44.14,0:02:46.57,Default,,0000,0000,0000,,将等于10%,所以你可以想象 Dialogue: 0,0:02:46.57,0:02:49.32,Default,,0000,0000,0000,,分布是右偏态的。 Dialogue: 0,0:02:49.32,0:02:51.36,Default,,0000,0000,0000,,我们来看看。 Dialogue: 0,0:02:51.36,0:02:54.20,Default,,0000,0000,0000,,这里我们看到的分布 Dialogue: 0,0:02:54.20,0:02:56.20,Default,,0000,0000,0000,,是右偏的。 Dialogue: 0,0:02:57.24,0:02:58.54,Default,,0000,0000,0000,,这很有道理。 Dialogue: 0,0:02:58.54,0:03:02.41,Default,,0000,0000,0000,,因为,你只能得到从0到1的值。 Dialogue: 0,0:03:02.41,0:03:05.87,Default,,0000,0000,0000,,如果你的均值接近0,你能 Dialogue: 0,0:03:05.87,0:03:07.90,Default,,0000,0000,0000,,在这里看到你的分布,然后 Dialogue: 0,0:03:07.90,0:03:09.62,Default,,0000,0000,0000,,可以看到右边有长的尾巴。 Dialogue: 0,0:03:09.62,0:03:12.44,Default,,0000,0000,0000,,这就造成了右偏。 Dialogue: 0,0:03:12.44,0:03:16.75,Default,,0000,0000,0000,,如果总体比例接近1, Dialogue: 0,0:03:16.75,0:03:18.49,Default,,0000,0000,0000,,你可以想象相反的情况会发生。 Dialogue: 0,0:03:18.49,0:03:21.14,Default,,0000,0000,0000,,结果会向左倾斜。 Dialogue: 0,0:03:21.14,0:03:25.22,Default,,0000,0000,0000,,我们可以看到,这里是左偏。 Dialogue: 0,0:03:27.16,0:03:30.20,Default,,0000,0000,0000,,另一件有趣的事是, Dialogue: 0,0:03:30.20,0:03:34.60,Default,,0000,0000,0000,,样本越大,标准差越小。 Dialogue: 0,0:03:34.60,0:03:38.32,Default,,0000,0000,0000,,让我们做总量的分布 Dialogue: 0,0:03:38.32,0:03:40.10,Default,,0000,0000,0000,,在这里。 Dialogue: 0,0:03:40.10,0:03:43.97,Default,,0000,0000,0000,,这里,这和我们之前看到的很相似, Dialogue: 0,0:03:43.97,0:03:46.69,Default,,0000,0000,0000,,这看起来很正常。 Dialogue: 0,0:03:46.69,0:03:49.46,Default,,0000,0000,0000,,但现在,当样本容量为10时, Dialogue: 0,0:03:49.46,0:03:54.37,Default,,0000,0000,0000,,但如果每次样本容量都是50呢? Dialogue: 0,0:03:54.37,0:03:58.54,Default,,0000,0000,0000,,注意,现在分布更紧密了。 Dialogue: 0,0:04:01.52,0:04:03.63,Default,,0000,0000,0000,,这还没到1呢, Dialogue: 0,0:04:03.63,0:04:06.72,Default,,0000,0000,0000,,但这是一个更紧密的分布。 Dialogue: 0,0:04:06.72,0:04:09.86,Default,,0000,0000,0000,,这是有意义的,样本标准差 Dialogue: 0,0:04:09.86,0:04:13.57,Default,,0000,0000,0000,,关于样本占比,是与n的平方根 Dialogue: 0,0:04:13.57,0:04:15.74,Default,,0000,0000,0000,,是成反比的。 Dialogue: 0,0:04:15.74,0:04:17.31,Default,,0000,0000,0000,,这就说得通了。 Dialogue: 0,0:04:17.31,0:04:20.34,Default,,0000,0000,0000,,希望你们对样本有了直观的理解,对于样本 Dialogue: 0,0:04:20.34,0:04:23.49,Default,,0000,0000,0000,,的占比,它的分布,样本分布 Dialogue: 0,0:04:23.49,0:04:26.68,Default,,0000,0000,0000,,关于样本占比,你可以计算它的平均数 Dialogue: 0,0:04:26.68,0:04:30.19,Default,,0000,0000,0000,,和它的标准方差。 Dialogue: 0,0:04:30.19,0:04:31.36,Default,,0000,0000,0000,,你感觉不错 Dialogue: 0,0:04:31.36,0:04:33.34,Default,,0000,0000,0000,,因为我们在模拟中见了。