1 00:00:00,180 --> 00:00:01,940 【讲师】之前的视频里,我们介绍了 2 00:00:01,940 --> 00:00:04,720 如何使用回归线,特别是基于样本数据的回归线的斜率 3 00:00:04,720 --> 00:00:08,090 如何使用回归线,特别是基于样本数据的回归线的斜率 4 00:00:10,910 --> 00:00:15,700 我们如何利用它来推断真实总量回归线的斜率 5 00:00:15,700 --> 00:00:17,960 这个视频我们要讲的是 6 00:00:17,960 --> 00:00:20,260 使用回归线的推理条件是什么 7 00:00:20,260 --> 00:00:22,610 使用回归线的推理条件是什么 8 00:00:22,610 --> 00:00:24,900 在某种程度上 9 00:00:24,900 --> 00:00:27,280 和我们在做假设检验、均值和比例的置信区间 时考虑的的推理条件类似 10 00:00:27,280 --> 00:00:30,320 和我们在做假设检验、均值和比例的置信区间 时考虑的的推理条件类似 11 00:00:30,320 --> 00:00:33,920 和我们在做假设检验、均值和比例的置信区间 时考虑的的推理条件类似 12 00:00:33,920 --> 00:00:36,890 但也会有一些新的条件 13 00:00:36,890 --> 00:00:39,860 为了帮助我们记住这些条件 14 00:00:39,860 --> 00:00:44,860 就总结为 LINER,L-I-N-E-R 15 00:00:46,950 --> 00:00:50,500 好记对吧,和线性这个词 Linear 非常像 16 00:00:50,500 --> 00:00:53,040 给 Liner 加个a,就是线性了 linear 17 00:00:53,040 --> 00:00:54,670 这个小窍门很实用 18 00:00:54,670 --> 00:00:57,140 因为我们学的就是线性回归嘛 19 00:00:57,140 --> 00:01:01,240 其实这里的第一个 L 就是代表的线性(Linear) 20 00:01:01,240 --> 00:01:05,000 第一个条件就是要求 21 00:01:05,000 --> 00:01:08,620 总量中 x 和 y 两个变量之间是线性关系 22 00:01:08,620 --> 00:01:11,290 总量中 x 和 y 两个变量之间是线性关系 23 00:01:11,290 --> 00:01:12,710 写下来:x 和 y 之间是线性关系 24 00:01:13,690 --> 00:01:14,750 写下来:x 和 y 之间是线性关系 25 00:01:15,670 --> 00:01:16,853 写下来:x 和 y 之间是线性关系 26 00:01:18,360 --> 00:01:19,310 写下来:x 和 y 之间是线性关系 27 00:01:20,230 --> 00:01:21,690 写下来:x 和 y 之间是线性关系 28 00:01:21,690 --> 00:01:23,950 写下来:x 和 y 之间是线性关系 29 00:01:23,950 --> 00:01:25,910 写下来:x 和 y 之间是线性关系 30 00:01:25,910 --> 00:01:28,920 现在,在很多情况下 31 00:01:28,920 --> 00:01:31,270 咱们就假设是在考试中看到的情况 32 00:01:31,270 --> 00:01:33,950 比如AP考试中 33 00:01:33,950 --> 00:01:36,400 他们可能会说,嘿,假设这个条件满足了 34 00:01:36,400 --> 00:01:37,720 通常,它会说假设所有条件都满足 35 00:01:37,720 --> 00:01:38,600 通常,它会说假设所有条件都满足 36 00:01:38,600 --> 00:01:41,100 他们只是想让你知道这些条件 37 00:01:41,100 --> 00:01:42,810 但这是需要考虑的 38 00:01:42,810 --> 00:01:45,660 如果潜在的关系是非线性的 39 00:01:45,660 --> 00:01:47,250 那你的某些推论可能就不那么有力了 40 00:01:47,250 --> 00:01:50,150 那你的某些推论可能就不那么有力了 41 00:01:50,150 --> 00:01:53,290 下面一个 I 是我们之前见过的 42 00:01:53,290 --> 00:01:55,560 当我们讨论推理的一般条件时 43 00:01:55,560 --> 00:01:57,530 这是独立 Independence 44 00:01:57,530 --> 00:01:59,960 条件独立 45 00:01:59,960 --> 00:02:01,980 有几种不同的思路 46 00:02:01,980 --> 00:02:04,070 任何一个单独的观察都是相互独立的 47 00:02:04,070 --> 00:02:05,830 任何一个单独的观察都是相互独立的 48 00:02:05,830 --> 00:02:09,180 可以是 重置抽样(放回抽样法) 49 00:02:09,180 --> 00:02:11,910 还可以用 10%法则 50 00:02:11,910 --> 00:02:13,430 当我们考虑比例和均值的条件独立时 51 00:02:13,430 --> 00:02:18,200 当我们考虑比例和均值的条件独立时 52 00:02:18,200 --> 00:02:20,010 要确信样本大小不超过总量的10% 53 00:02:20,010 --> 00:02:23,710 要确信样本大小不超过总量的10% 54 00:02:23,710 --> 00:02:26,070 要确信样本大小不超过总量的10% 55 00:02:26,070 --> 00:02:28,140 下一个 N 是标准状况(标况)Normal condition 56 00:02:28,140 --> 00:02:30,230 我们在做比例和均值的推理时已经讨论过了 57 00:02:30,230 --> 00:02:32,610 我们在做比例和均值的推理时已经讨论过了 58 00:02:32,610 --> 00:02:35,170 尽管当我们处理回归时它会稍复杂一些 59 00:02:35,170 --> 00:02:37,580 尽管当我们处理回归时它会稍复杂一些 60 00:02:37,580 --> 00:02:39,590 标准状况(标况)Normal condition 61 00:02:39,590 --> 00:02:41,160 很多时候人们只是说假设它已经达到了 62 00:02:41,160 --> 00:02:42,160 我来真的画一条回归线,但是用一点透视图来画 63 00:02:42,160 --> 00:02:43,820 我来真的画一条回归线,但是用一点透视图来画 64 00:02:43,820 --> 00:02:44,880 我要增加一个三维空间 65 00:02:44,880 --> 00:02:46,670 我要增加一个三维空间 66 00:02:46,670 --> 00:02:48,410 这是 x 轴 67 00:02:48,410 --> 00:02:50,500 这是 y 轴 68 00:02:50,500 --> 00:02:54,810 真实的总体回归线是这样的 69 00:02:54,810 --> 00:02:57,270 已知标准状况是 70 00:02:57,270 --> 00:03:00,033 真实总量中,任意给定的 x 71 00:03:00,870 --> 00:03:05,770 y 的分布是正态的 72 00:03:05,770 --> 00:03:06,603 正态分布 73 00:03:06,603 --> 00:03:08,810 我看看能不能画出y的正态分布 74 00:03:08,810 --> 00:03:10,910 我看看能不能画出y的正态分布 75 00:03:10,910 --> 00:03:11,870 取这个 x 76 00:03:11,870 --> 00:03:13,990 这里就是这个正态分布 77 00:03:13,990 --> 00:03:16,860 然后,对于这个 x 78 00:03:16,860 --> 00:03:21,300 y 也是正态分布的 79 00:03:21,300 --> 00:03:23,460 就像图上这样 80 00:03:23,460 --> 00:03:24,530 就像图上这样 81 00:03:24,530 --> 00:03:25,380 如果已知 x 82 00:03:25,380 --> 00:03:27,760 y 就是正态分布的 83 00:03:27,760 --> 00:03:29,750 再强调一下,很多时候你会被告知 84 00:03:29,750 --> 00:03:32,470 假设它已经达到了 85 00:03:32,470 --> 00:03:34,390 至少在统计学入门课程中 86 00:03:34,390 --> 00:03:36,970 你自己想学透是有点难的 87 00:03:36,970 --> 00:03:38,810 下一个关于 E 的条件和这个也有关 88 00:03:38,810 --> 00:03:42,790 等方差性 Equal variance 89 00:03:42,790 --> 00:03:45,090 等方差性 Equal variance 90 00:03:45,090 --> 00:03:46,390 也就是说 91 00:03:46,390 --> 00:03:48,670 对于给定的x,这些正态分布的分布是相同的 92 00:03:48,670 --> 00:03:51,250 对于给定的x,这些正态分布的分布是相同的 93 00:03:51,250 --> 00:03:52,870 也就是方差相等 94 00:03:52,870 --> 00:03:54,520 也可以考虑标准差相等 95 00:03:54,520 --> 00:03:56,360 也可以考虑标准差相等 96 00:03:56,360 --> 00:03:59,880 例如,对已知 x,咱们就说是这个 x 97 00:03:59,880 --> 00:04:02,580 突然间,方差降低了很多 98 00:04:02,580 --> 00:04:03,620 看起来就是这样的 99 00:04:03,620 --> 00:04:06,890 那就不再满足推理的条件了 100 00:04:06,890 --> 00:04:10,430 最后一条也很重要的是,我们已经见了很多次 101 00:04:10,430 --> 00:04:12,300 Random condition 随机条件 102 00:04:12,300 --> 00:04:14,600 这些数据来自于一个精心设计的随机样本或某种随机实验 103 00:04:14,600 --> 00:04:17,170 这些数据来自于一个精心设计的随机样本或某种随机实验 104 00:04:17,170 --> 00:04:19,200 这些数据来自于一个精心设计的随机样本或某种随机实验 105 00:04:19,200 --> 00:04:23,040 到现在为止我们学过的每一种推理条件中 106 00:04:23,040 --> 00:04:25,760 都见过这个条件 107 00:04:25,760 --> 00:04:27,140 那我就先讲到这里 108 00:04:27,140 --> 00:04:28,270 我听说有些考试会考这个 109 00:04:28,270 --> 00:04:30,470 我听说有些考试会考这个 110 00:04:30,470 --> 00:04:32,960 但很多时候,在统计学入门课上 111 00:04:32,960 --> 00:04:36,130 如果涉及到解决问题时,他们会告诉你 112 00:04:36,130 --> 00:04:38,720 嘿,我们假设推理的所有条件都已满足 113 00:04:38,720 --> 00:04:40,910 或者问推理的条件是什么? 114 00:04:40,910 --> 00:04:42,970 但他们不会让你去证明 115 00:04:42,970 --> 00:04:46,010 例如,正态分布或等方差条件 116 00:04:46,010 --> 00:04:47,040 对于统计学入门课程来说,这就有点过了 117 00:04:47,040 --> 00:04:49,763 对于统计学入门课程来说,这就有点过了