WEBVTT 00:00:00.180 --> 00:00:01.940 【讲师】之前的视频里,我们介绍了 00:00:01.940 --> 00:00:04.720 如何使用回归线,特别是基于样本数据的回归线的斜率 00:00:04.720 --> 00:00:08.090 如何使用回归线,特别是基于样本数据的回归线的斜率 00:00:10.910 --> 00:00:15.700 我们如何利用它来推断真实总量回归线的斜率 00:00:15.700 --> 00:00:17.960 这个视频我们要讲的是 00:00:17.960 --> 00:00:20.260 使用回归线的推理条件是什么 00:00:20.260 --> 00:00:22.610 使用回归线的推理条件是什么 00:00:22.610 --> 00:00:24.900 在某种程度上 00:00:24.900 --> 00:00:27.280 和我们在做假设检验、均值和比例的置信区间 时考虑的的推理条件类似 00:00:27.280 --> 00:00:30.320 和我们在做假设检验、均值和比例的置信区间 时考虑的的推理条件类似 00:00:30.320 --> 00:00:33.920 和我们在做假设检验、均值和比例的置信区间 时考虑的的推理条件类似 00:00:33.920 --> 00:00:36.890 但也会有一些新的条件 00:00:36.890 --> 00:00:39.860 为了帮助我们记住这些条件 00:00:39.860 --> 00:00:44.860 就总结为 LINER,L-I-N-E-R 00:00:46.950 --> 00:00:50.500 好记对吧,和线性这个词 Linear 非常像 00:00:50.500 --> 00:00:53.040 给 Liner 加个a,就是线性了 linear 00:00:53.040 --> 00:00:54.670 这个小窍门很实用 00:00:54.670 --> 00:00:57.140 因为我们学的就是线性回归嘛 00:00:57.140 --> 00:01:01.240 其实这里的第一个 L 就是代表的线性(Linear) 00:01:01.240 --> 00:01:05.000 第一个条件就是要求 00:01:05.000 --> 00:01:08.620 总量中 x 和 y 两个变量之间是线性关系 00:01:08.620 --> 00:01:11.290 总量中 x 和 y 两个变量之间是线性关系 00:01:11.290 --> 00:01:12.710 写下来:x 和 y 之间是线性关系 00:01:13.690 --> 00:01:14.750 写下来:x 和 y 之间是线性关系 00:01:15.670 --> 00:01:16.853 写下来:x 和 y 之间是线性关系 00:01:18.360 --> 00:01:19.310 写下来:x 和 y 之间是线性关系 00:01:20.230 --> 00:01:21.690 写下来:x 和 y 之间是线性关系 00:01:21.690 --> 00:01:23.950 写下来:x 和 y 之间是线性关系 00:01:23.950 --> 00:01:25.910 写下来:x 和 y 之间是线性关系 00:01:25.910 --> 00:01:28.920 现在,在很多情况下 00:01:28.920 --> 00:01:31.270 咱们就假设是在考试中看到的情况 00:01:31.270 --> 00:01:33.950 比如AP考试中 00:01:33.950 --> 00:01:36.400 他们可能会说,嘿,假设这个条件满足了 00:01:36.400 --> 00:01:37.720 通常,它会说假设所有条件都满足 00:01:37.720 --> 00:01:38.600 通常,它会说假设所有条件都满足 00:01:38.600 --> 00:01:41.100 他们只是想让你知道这些条件 00:01:41.100 --> 00:01:42.810 但这是需要考虑的 00:01:42.810 --> 00:01:45.660 如果潜在的关系是非线性的 00:01:45.660 --> 00:01:47.250 那你的某些推论可能就不那么有力了 00:01:47.250 --> 00:01:50.150 那你的某些推论可能就不那么有力了 00:01:50.150 --> 00:01:53.290 下面一个 I 是我们之前见过的 Independence 00:01:53.290 --> 00:01:55.560 当我们讨论推理的一般条件时 00:01:55.560 --> 00:01:57.530 这是独立 Independence 00:01:57.530 --> 00:01:59.960 条件独立 00:01:59.960 --> 00:02:01.980 有几种不同的思路 00:02:01.980 --> 00:02:04.070 任何一个单独的观察都是相互独立的 00:02:04.070 --> 00:02:05.830 任何一个单独的观察都是相互独立的 00:02:05.830 --> 00:02:09.180 可以是 重置抽样(放回抽样法) 00:02:09.180 --> 00:02:11.910 还可以用 10%法则 00:02:11.910 --> 00:02:13.430 当我们考虑比例和均值的条件独立时 00:02:13.430 --> 00:02:18.200 当我们考虑比例和均值的条件独立时 00:02:18.200 --> 00:02:20.010 要确信样本大小不超过总量的10% 00:02:20.010 --> 00:02:23.710 要确信样本大小不超过总量的10% 00:02:23.710 --> 00:02:26.070 要确信样本大小不超过总量的10% 00:02:26.070 --> 00:02:28.140 下一个 N 是标准状况(标况)Normal condition 00:02:28.140 --> 00:02:30.230 我们在做比例和均值的推理时已经讨论过了 00:02:30.230 --> 00:02:32.610 我们在做比例和均值的推理时已经讨论过了 00:02:32.610 --> 00:02:35.170 尽管当我们处理回归时它会稍复杂一些 00:02:35.170 --> 00:02:37.580 尽管当我们处理回归时它会稍复杂一些 00:02:37.580 --> 00:02:39.590 标准状况(标况)Normal condition 00:02:39.590 --> 00:02:41.160 很多时候人们只是说假设它已经达到了 00:02:41.160 --> 00:02:42.160 我来真的画一条回归线,但是用一点透视图来画 00:02:42.160 --> 00:02:43.820 我来真的画一条回归线,但是用一点透视图来画 00:02:43.820 --> 00:02:44.880 我要增加一个三维空间 00:02:44.880 --> 00:02:46.670 我要增加一个三维空间 00:02:46.670 --> 00:02:48.410 这是 x 轴 00:02:48.410 --> 00:02:50.500 这是 y 轴 00:02:50.500 --> 00:02:54.810 真实的总体回归线是这样的 00:02:54.810 --> 00:02:57.270 已知标准状况是 00:02:57.270 --> 00:03:00.033 真实总量中,任意给定的 x 00:03:00.870 --> 00:03:05.770 y 的分布是正态的 00:03:05.770 --> 00:03:06.603 正态分布 00:03:06.603 --> 00:03:08.810 我看看能不能画出y的正态分布 00:03:08.810 --> 00:03:10.910 我看看能不能画出y的正态分布 00:03:10.910 --> 00:03:11.870 取这个 x 00:03:11.870 --> 00:03:13.990 这里就是这个正态分布 00:03:13.990 --> 00:03:16.860 然后,对于这个 x 00:03:16.860 --> 00:03:21.300 y 也是正态分布的 00:03:21.300 --> 00:03:23.460 就像图上这样 00:03:23.460 --> 00:03:24.530 就像图上这样 00:03:24.530 --> 00:03:25.380 如果已知 x 00:03:25.380 --> 00:03:27.760 y 就是正态分布的 00:03:27.760 --> 00:03:29.750 再强调一下,很多时候你会被告知 00:03:29.750 --> 00:03:32.470 假设它已经达到了 00:03:32.470 --> 00:03:34.390 至少在统计学入门课程中 00:03:34.390 --> 00:03:36.970 你自己想学透是有点难的 00:03:36.970 --> 00:03:38.810 下一个关于 E 的条件和这个也有关 00:03:38.810 --> 00:03:42.790 等方差性 Equal variance 00:03:42.790 --> 00:03:45.090 等方差性 Equal variance 00:03:45.090 --> 00:03:46.390 也就是说 00:03:46.390 --> 00:03:48.670 对于给定的x,这些正态分布的分布是相同的 00:03:48.670 --> 00:03:51.250 对于给定的x,这些正态分布的分布是相同的 00:03:51.250 --> 00:03:52.870 也就是方差相等 00:03:52.870 --> 00:03:54.520 也可以考虑标准差相等 00:03:54.520 --> 00:03:56.360 也可以考虑标准差相等 00:03:56.360 --> 00:03:59.880 例如,对已知 x,咱们就说是这个 x 00:03:59.880 --> 00:04:02.580 突然间,方差降低了很多 00:04:02.580 --> 00:04:03.620 看起来就是这样的 00:04:03.620 --> 00:04:06.890 那就不再满足推理的条件了 00:04:06.890 --> 00:04:10.430 最后一条也很重要的是,我们已经见了很多次 00:04:10.430 --> 00:04:12.300 Random condition 随机条件 00:04:12.300 --> 00:04:14.600 这些数据来自于一个精心设计的随机样本或某种随机实验 00:04:14.600 --> 00:04:17.170 这些数据来自于一个精心设计的随机样本或某种随机实验 00:04:17.170 --> 00:04:19.200 这些数据来自于一个精心设计的随机样本或某种随机实验 00:04:19.200 --> 00:04:23.040 到现在为止我们学过的每一种推理条件中 00:04:23.040 --> 00:04:25.760 都见过这个条件 00:04:25.760 --> 00:04:27.140 那我就先讲到这里 00:04:27.140 --> 00:04:28.270 我听说有些考试会考这个 00:04:28.270 --> 00:04:30.470 我听说有些考试会考这个 00:04:30.470 --> 00:04:32.960 但很多时候,在统计学入门课上 00:04:32.960 --> 00:04:36.130 如果涉及到解决问题时,他们会告诉你 00:04:36.130 --> 00:04:38.720 嘿,我们假设推理的所有条件都已满足 00:04:38.720 --> 00:04:40.910 或者问推理的条件是什么? 00:04:40.910 --> 00:04:42.970 但他们不会让你去证明 00:04:42.970 --> 00:04:46.010 例如,正态分布或等方差条件 00:04:46.010 --> 00:04:47.040 对于统计学入门课程来说,这就有点过了 00:04:47.040 --> 00:04:49.763 对于统计学入门课程来说,这就有点过了