-
歡迎來到統計學課程
-
我早已盼望制作這套課程
-
好吧,我想要直搗黃龍地討論核心課程
-
我將盡量運用案例教學
-
以使大家對統計學有一個總體的理解
-
這樣是以防有人對統計學不熟悉
-
雖然,我想很多人直覺上了解統計學是什麽
-
雖然,我想很多人直覺上了解統計學是什麽
-
最核心的部分,好吧,概括而言,就是
-
一切圍繞數據進行
-
我們可以大體上爲統計學分類
-
基本可以分成三大類
-
第一種是敘述統計學
-
假設你有一大堆數據,你希望能在不把數據完全告訴別人
-
的情況下介紹這些數據的情況
-
你大概可以找到一些有標志性的數據
-
來代表所有的數據,而無需將所有的數據都說一次
-
來代表所有的數據,而無需將所有的數據都說一次
-
這就是敘述統計學
-
此外,還有一些統計學能對未來起預測作用
-
好吧,我大體把它們分成了一類
-
其中有推論統計學
-
推論統計學運用數據來對事物做結論
-
推論統計學運用數據來對事物做結論
-
假設你從總體中得到了一些樣本
-
統計學中經常提到樣本和總體
-
我想你應該對它們是什麽有一些基礎的認識,對麽?
-
假設我調查三個即將爲總統選舉投票的選民
-
很顯然我沒有調查整個總體
-
我僅僅調查了一個樣本
-
推論統計的妙處在於,我們只需對樣本
-
進行一些數學計算,便有可能推斷出
-
總體這個整體的情況
-
好吧,無論如何,我只是在對統計學是什麽進行概括介紹
-
好吧,無論如何,我只是在對統計學是什麽進行概括介紹
-
接下來,我們來學習統計學的核心內容,同時
-
我們將從描述統計開始學習
-
首先,如果別人給我們一組數據並且要求我們對其進行描述的話,我不知道我,或者大部分人會怎麽做
-
首先,如果別人給我們一組數據並且要求我們對其進行描述的話,我不知道我,或者大部分人會怎麽做
-
首先,如果別人給我們一組數據並且要求我們對其進行描述的話,我不知道我,或者大部分人會怎麽做
-
嗯,或許我會找到其中最能代表這一組數據的個別數字
-
嗯,或許我會找到其中最能代表這一組數據的個別數字
-
或者,一些能體現集中趨勢的數字
-
“集中趨勢” 是統計學課本上常見的詞
-
一組數字的集中趨勢
-
這也叫做平均數
-
在這裡,我使用“平均數”這個詞的時候會比平時更加精確一些
-
當我在這裡提到“平均數”時
-
它表示能描述一組數據的中心趨勢,即集中位置或平均水平的一個值
-
它表示能描述一組數據的中心趨勢,即集中位置或平均水平的一個值
-
或者說,最能代表一組數據的一個數值
-
我知道這聽起來非常抽象,但讓我們
-
先做幾道題吧
-
有幾種方法可以用來計算
-
一組數據的中心趨勢,或平均數
-
你以前或許見過這些
-
它們是均值(即平均數)
-
事實上,均值有很多種,我們這裡指的僅僅是
-
算數平均數
-
以後,當我們學習計算股票回報率時會學到幾何平均數
-
或許某天還會學到調和平均數
-
包括均值、中位數和眾數
-
用統計學的話說,這些都可用來表述一組數據
-
或是總體的集中趨勢
-
又或是樣本的集中趨勢
-
同時它們都是集合性的——它們都可能是平均數的某種形態
-
同時它們都是集合性的——它們都可能是平均數的某種形態
-
我想,當我們看到例子時
-
可能會更加明白
-
在日常生活中,當人們談論到平均數時
-
我想你在生活中已經計算過平均數了
-
人們通常指的是算數平均數
-
因此,通常情況下當人們說“讓我們計算這些數字的平均數”
-
人們希望你計算的是算數平均數
-
人們希望你計算的是算數平均數
-
他們不想要中位數或眾數
-
但在我們繼續向下學習之前,讓我們搞明白它們都是什麽
-
但在我們繼續向下學習之前,讓我們搞明白它們都是什麽
-
讓我來編造一組數字
-
假設我有1
-
假設我還有一個1、一個2、一個3
-
以及一個4
-
我想這些足夠了
-
我們只需要一個簡單的例子
-
當談到平均數時,算數平均數或許是大家最熟悉的
-
當談到平均數時,算數平均數或許是大家最熟悉的
-
基本上你只需將所有數字相加,然後
-
除以數字的數目
-
在這個例子中,5個數的和就是1加1加2加3加4
-
然後除以5
-
然後除以5
-
結果是多少呢?
-
1加1等於2
-
2加2等於4
-
4加3等於7
-
7加4等於11
-
結果等於11除以5
-
就是?
-
二又五分之一
-
就等於2.2
-
所以,有人會說:“嘿,你知道
-
這個數字相當不錯地代表了這組數據。”
-
這個數字相當不錯地代表了這組數據。
-
這組數據中所有的數字和2.2都比較接近。”
-
你也可以認爲,2.2代表了這組數據的集中趨勢
-
你也可以認爲,2.2代表了這組數據的集中趨勢
-
通常說來,這將會是平均數。
-
更加精確地說,這是這組數據的算術平均數
-
更加精確地說,這是這組數據的算術平均數
-
你可以看到,它對這組數有一定的代表性
-
如果我不想告訴你這5個數字分別是什麽
-
我可以說:“你知道,我有一組5個數據,而且
-
它們的均值是2.2。”這樣至少告訴了你
-
這組數字大概會是怎樣的
-
大概在下一個影片裏,我們會談到如何知道均值和
-
這組數據中每個數字的差是多少
-
所以,這就是其中一種衡量方法
-
除了這樣計算平均數外,另一種衡量方法
-
就是把這組數按順序排好
-
事實上我就是這麽做的
-
讓我們再次將這組數字從小到大排列
-
1,1,2,3,4
-
取中間的數字
-
我們看看,這裡有1、2、3、4、5個數
-
所以中間的就是第三個數,對嗎?
-
中間的數字是2
-
這組數據中,有兩個比2大,還有
-
兩個比2小
-
2就被稱爲中位數
-
所以,中位數涉及的計算非常少
-
事實上你只需將數字排序
-
然後你找到中間的數,比這個數大和比這個
-
數小的數字在這個組裏一樣多
-
所以這組數據的中位數就是2
-
你看,我指的是,這個中位數
-
和均值其實挺相近的
-
沒有唯一正確的答案
-
均值和中位數都不是衡量平均數的唯一答案
-
它們只是衡量平均數的不同方法
-
這裡就是中位數
-
我知道你大概在想:“好吧,當我們
-
有5個數的時候這些都很簡單
-
但如果我們有6個數字呢?”那該怎麽辦呢?
-
如果這組數中有6個數怎麽辦?
-
1,1,2,3,4,讓我們再加一個4
-
所以,我們現在沒有中間的數字了,對麽?
-
2不再是中位數,因爲有2個數比它小
-
3個數比它大
-
3也不是中位數,因爲組裏有3個數比它大
-
不好意思,我說錯了,有2個數比它大,3個數
-
比它小
-
所以沒有數字在中間
-
當一組數據的個數是偶數,且要求你算出中位數
-
你所需要做的就是取中間的兩個數字
-
然後計算這兩個數字的算術平均數
-
然後計算這兩個數字的算術平均數
-
因此,在這組數字中,中位數是2.5
-
好吧
-
但我們先不討論這個,因爲我想比較一下同組數據的
-
中位數、均值和眾數之間的區別
-
中位數、均值和眾數之間的區別
-
知道這個有助於學習,因爲這三者容易讓人混淆
-
知道這個有助於學習,因爲這三者容易讓人混淆
-
而且,這三個都是數學定義
-
是爲了讓我們更好的分析數字,可供運用的數學工具
-
是爲了讓我們更好的分析數字,可供運用的數學工具
-
這些計算公式並不會某天出現在天空,讓人們
-
驚呼:“哦,如何計算平均數是宇宙的部分奧秘!”
-
驚呼:“哦,如何計算平均數是宇宙的部分奧秘!”
-
這些計算都是人類創造出來,以便使我們的大腦
-
能更好地處理數據
-
這組數據數目不多,但如果我們擁有的不是5個
-
數而是五百萬個,你可以想象,你絕對不會願意
-
一個一個地去分析這些數字
-
無論如何,在我進一步討論前,我們先學習一下眾數的概念
-
無論如何,在我進一步討論前,我們先學習一下眾數的概念
-
在一定程度上,我認爲眾數是最容易被人遺忘的
-
人們通常在考試時看到眾數時總會驚訝萬分
-
他們會覺得:“哦,這是一個很高深的概念!”
-
而事實上,眾數在一定程度上是計算集中趨勢或是平均數
-
最簡單的方法
-
眾數就是一組數據中最經常出現的數
-
在這個例子裏,有兩個1,其他的數字都各自只有一個,對嗎?
-
在這個例子裏,有兩個1,其他的數字都各自只有一個,對嗎?
-
所以,這裡的眾數就是1
-
因此,眾數就是最多的數
-
現在,你可能會說:“哇,Sal,如果這個是我們的數組怎麽辦?
-
現在,你可能會說:“哇,Sal,如果這個是我們的數組怎麽辦?
-
1,1,2,3,4,4。” 這裡,有兩個1,還有兩個4
-
在這種情況下,計算眾數就更困難一點
-
因爲1和4都可能成爲眾數
-
你可以說眾數是1,或者眾數是4
-
但是這樣都不夠精確
-
可能你會需要讓那個問你問題的人澄清一下他的意圖
-
可能你會需要讓那個問你問題的人澄清一下他的意圖
-
大部分時候,如果你在考試時遇到這個問題時
-
答案都不會這麽模糊
-
通常一組數據中會有一個最經常出現的數字
-
現在,你可能會問,好吧,爲什麽一種計算方法還不夠
-
現在,你可能會問,好吧,爲什麽一種計算方法還不夠
-
你知道我們學習平均數的目的,爲什麽我們不干脆僅僅使用平均數呢?
-
你知道我們學習平均數的目的,爲什麽我們不干脆僅僅使用平均數呢?
-
又或者,爲什麽我們不一直用算術平均數進行計算呢?
-
中位數和眾數有什麽用呢?
-
好吧,我將試著舉一個例子,看看你明不明白
-
好吧,我將試著舉一個例子,看看你明不明白
-
然後你可以自己進一步思考一下
-
假設我有這樣一組數
-
3,3,3,3,3,以及,100
-
那麽,算術平均數是多少?
-
我有5個3以及1個100
-
所以答案是用115除以6,對嗎
-
我有六個數
-
115只是這六個數的和
-
所以結果是:115是6的多少倍?
-
上一
-
一六得六
-
55除以6,上9
-
六九五十四
-
所以答案是19又1/6
-
好吧
-
我僅僅將所有數相加然後除以個數
-
我僅僅將所有數相加然後除以個數
-
但是我的問題是,這個答案真的能代表這組變量麽
-
但是我的問題是,這個答案真的能代表這組變量麽
-
我的意思是,我有很多的3,只有一個100
-
但是,我們得到的集中趨勢卻是19又1/6
-
我的意思是,19又1/6並不能很好地代表這組數據的情況
-
我的意思是,19又1/6並不能很好地代表這組數據的情況
-
或許在不同的問題下,這個答案是正確的
-
但是看起來還是有點怪,對不對?
-
我覺得,我的直覺告訴我,集中趨勢應該是一個更靠近3的數字
-
因爲組裏有很多的3
-
在這裡,眾數會告訴我們什麽呢?
-
這些數字已經是從小到大排列的,對嗎?
-
如果它們是隨機給出的,你首先需要將其從小到大排列
-
然後你看看,中間的那個數是什麽?
-
我們看看,因爲這組數的數目是偶數,中間的兩個數是3和3
-
我們看看,因爲這組數的數目是偶數,中間的兩個數是3和3
-
3和3的平均數——我應該說得更加精確
-
3和3的平均數——我應該說得更加精確
-
計算3和3的算術平均數,答案是3
-
這個數字可能是衡量這組數字的
-
集中趨勢或是平均數更加準確的指標,對嗎?
-
根本上說,使用中位數計算時,我不會受到組裏
-
比其他數大很多、很不一樣的數字的影響
-
比其他數大很多、很不一樣的數字的影響
-
在統計學上,它們被稱爲不具代表性的異常值(溢出值)
-
舉例說明這樣的數字,假設當我們談起平均房價時
-
這個城市的房子大概都是10萬美金
-
但是,其中卻有一棟房子價值1000億美金
-
如果某人告訴你,假設,平均房價是1百萬美金
-
你對這個城市可能會有十分錯誤的印象
-
你對這個城市可能會有十分錯誤的印象
-
但是,如果告訴你房價的中位數是10萬美金,那麽
-
你對這個城市的真實房價就會有更好的了解
-
類似地,這個中位數,可能會給你關於這組數據
-
具體情況如何的更好的解釋
-
因爲算術平均數受到異常值的影響,有所偏離
-
因爲算術平均數受到異常值的影響,有所偏離
-
同時,要能夠找到這個異常值
-
一個統計學家可能會說,一看到它我就知道是它
-
一個統計學家可能會說,一看到它我就知道是它
-
對於異常值並沒有一個正式的定義
-
但是異常值通常是一個明顯地與其他數字不同的數
-
有時候,異常值的産生是來源於衡量錯誤或其他原因
-
最後,讓我們討論眾數
-
這組數中最多見的數字是什麽?
-
組裏有5個3和一個100
-
所以,最常見的數字,再一次是3
-
在這個例子裏,當你有一個異常值的時候,中位數
-
和眾數可能,你知道,可能是用來描述一組變量
-
更加合適的指標
-
更加合適的指標
-
可能這只是一種度量錯誤
-
但是我不知道,我們並不了解實際上這些代表什麽
-
但是我不知道,我們並不了解實際上這些代表什麽
-
如果這些是房價的話,我可能會認爲說這些更能
-
代表這個地區真實的房價情況
-
代表這個地區真實的房價情況
-
但如果這些數字是其他情況的產物,例如是一次考試的成績
-
那麽,可能,班上有一個孩子
-
六個孩子中有一個學得非常非常好,而且其他孩子都不學習
-
六個孩子中有一個學得非常非常好,而且其他孩子都不學習
-
這個更能表明,一定程度上,在這個層次的學生平均水平如何
-
這個更能表明,一定程度上,在這個層次的學生平均水平如何
-
無論如何,我這次的內容就講到這裡
-
我希望你們多和數字做遊戲,同時
-
獨自思考一下這些概念
-
在下一個影片中,我們將會學到更多
-
敘述統計學的內容
-
我們不再談論集中趨勢,而是談論
-
集中趨勢外數字的離散程度
-
集中趨勢外數字的離散程度
-
下次見!