- 統(tǒng)計(jì)學(xué)圖鑒
- (日)栗原伸一 丸山敦史
- 3425字
- 2021-11-29 10:28:27

第 1 章 描述統(tǒng)計(jì)學(xué)

1.1 各種平均數(shù)

平均數(shù)表示一組數(shù)據(jù)的中心數(shù)值。
算術(shù)平均數(shù)
的算術(shù)平均數(shù)的計(jì)算公式如下所示。
是變量,
是數(shù)據(jù)個(gè)數(shù)。

下圖顯示了一年中每個(gè)月的電費(fèi)數(shù)據(jù)。我們可以通過(guò)求算術(shù)平均數(shù)來(lái)了解平均每月電費(fèi)是多少。

算術(shù)平均數(shù)(arithmetic mean)…數(shù)據(jù)總和除以數(shù)據(jù)個(gè)數(shù)所得到的結(jié)果,易受離群值的影響。又稱算術(shù)平均值。
幾何平均數(shù)
的幾何平均數(shù)的計(jì)算公式如下所示。

幾何平均數(shù)適用于計(jì)算年增長(zhǎng)率和同比值等數(shù)值的平均數(shù)。

調(diào)和平均數(shù)
的調(diào)和平均數(shù)的計(jì)算公式如下所示。

我們?cè)谟?jì)算移動(dòng)某段距離的平均速度時(shí)可以使用調(diào)和平均數(shù)。
幾何平均數(shù)(geometric mean)…用于計(jì)算增長(zhǎng)率或平均利率。幾何平均數(shù)又叫幾何平均值。
調(diào)和平均數(shù)(harmonic mean)…用于計(jì)算平均速度或電阻的平均數(shù)。算數(shù)平均數(shù)≥幾何平均數(shù)≥調(diào)和平均數(shù)。
1.2 數(shù)據(jù)的離散程度①:~分位數(shù)和方差~

只看平均數(shù)并不能得知數(shù)據(jù)的離散程度。
因此,我們需要使用最大值、最小值、分位數(shù)、四分位距和方差(標(biāo)準(zhǔn)差)等指標(biāo)來(lái)掌握數(shù)據(jù)的離散方式。
分位數(shù)
● 將 個(gè)按從小到大的順序排列的數(shù)據(jù)分為
等份,此時(shí)處于分割點(diǎn)的數(shù)值就稱為分位數(shù)。
四分位數(shù)()比較常用。四分位數(shù)按照數(shù)值從小到大的順序分別稱為第一四分位數(shù)、第二四分位數(shù)和第三四分位數(shù)。第二四分位數(shù)位于所有數(shù)據(jù)的中間位置,也叫中位數(shù)。
四分位距
● 四分位距是第三四分位數(shù)與第一四分位數(shù)的差。數(shù)據(jù)越向中位數(shù)集中,四分位距就越小。
偏差
偏差是數(shù)據(jù)的值與平均數(shù)的差。如果數(shù)據(jù)集中有很多偏差(絕對(duì)值)較大的數(shù)據(jù),我們就可以說(shuō)該數(shù)據(jù)集的離散程度很大。

四分位數(shù)(quartile)…將數(shù)據(jù)按從小到大的順序排列并分成四等份時(shí),位于各個(gè)分割點(diǎn)的數(shù)值。
中位數(shù)(median)…按順序排列的一組數(shù)據(jù)中位于正中間的數(shù)。不易受離群值的影響。
方差
偏差表示的是每個(gè)數(shù)據(jù)與平均數(shù)的差,而方差是衡量離散程度的指標(biāo)。方差的計(jì)算公式如下頁(yè)所示。

公式右邊的第一項(xiàng)是偏差的平方和。方差的算術(shù)平方根叫作標(biāo)準(zhǔn)差()。
離群值
大幅偏離平均數(shù)的值稱為離群值。

方差(variance)…用于衡量數(shù)據(jù)在平均數(shù)周圍的離散程度。方差是偏差平方和的平均數(shù)。
標(biāo)準(zhǔn)差(standard deviation)…方差的算術(shù)平方根。標(biāo)準(zhǔn)差的單位與數(shù)據(jù)的單位相同,便于計(jì)算。
1.3 數(shù)據(jù)的離散程度②:~變異系數(shù)~

變異系數(shù)
● 用于比較兩個(gè)數(shù)據(jù)的離散程度。
變異系數(shù)的計(jì)算公式如下所示。

哪一種肉的價(jià)格變動(dòng)較大呢?

牛肉價(jià)格的標(biāo)準(zhǔn)差更大,但二者的變異系數(shù)是一樣的。由此我們可以知道,牛肉價(jià)格和豬肉價(jià)格的離散程度相同。
變異系數(shù)(coefficient of variation)…標(biāo)準(zhǔn)差與平均數(shù)的比。用于比較單位不同的樣本之間的離散程度。
如何使用次數(shù)分布表來(lái)計(jì)算平均數(shù)和方差
當(dāng)數(shù)據(jù)以次數(shù)分布表(下表)的形式給出時(shí),我們可以使用“組代表值”(組中數(shù)值的中位數(shù))來(lái)計(jì)算平均數(shù)和方差的近似值。
專欄 偉人傳①

當(dāng)今的描述統(tǒng)計(jì)學(xué)是由卡爾 ? 皮爾遜發(fā)揚(yáng)光大的。1857 年,皮爾遜出生于英國(guó)倫敦的一個(gè)律師之家。他從小體弱多病。進(jìn)入大學(xué)后,潛心研究數(shù)學(xué),畢業(yè)后又前往德國(guó)學(xué)習(xí)物理學(xué)。留學(xué)期間,皮爾遜對(duì)文學(xué)、法學(xué)和社會(huì)主義理論產(chǎn)生了興趣。據(jù)說(shuō),他把自己的名字由 Carl 改成了 Karl,就是受到了當(dāng)時(shí)著名的經(jīng)濟(jì)學(xué)家卡爾 ? 馬克思(Karl Marx)的影響。1880 年回國(guó)后,他繼續(xù)學(xué)習(xí)法學(xué),但不久之后又回到了數(shù)學(xué)領(lǐng)域,先后在倫敦的多所大學(xué)擔(dān)任應(yīng)用數(shù)學(xué)教授。
將應(yīng)用數(shù)學(xué)家皮爾遜領(lǐng)入統(tǒng)計(jì)學(xué)世界的是他的大學(xué)同事——?jiǎng)游飳W(xué)家瓦爾特 ? 弗蘭克 ? 拉斐爾 ? 韋爾登(Walter Frank Raphael Weldon)。韋爾登受到弗朗西斯 ? 高爾頓(Francis Galton)的影響,打算利用統(tǒng)計(jì)來(lái)弄清生物演化的機(jī)制。于是他請(qǐng)擅長(zhǎng)數(shù)學(xué)的皮爾遜來(lái)協(xié)助研究。就這樣,皮爾遜與韋爾登一起嘗試使用統(tǒng)計(jì)方法來(lái)解決遺傳和演化的問(wèn)題。在這個(gè)過(guò)程中,他們提出了許多近代統(tǒng)計(jì)學(xué)中必不可少的概念和方法。這些研究也得到了認(rèn)可。1911 年高爾頓去世,皮爾遜作為接班人,成為倫敦大學(xué)學(xué)院優(yōu)生學(xué)系的第一任教授,創(chuàng)立了世界上第一個(gè)(應(yīng)用)統(tǒng)計(jì)學(xué)系。
在皮爾遜的諸多成就中,最重要的成就是創(chuàng)建并發(fā)展運(yùn)用了卡方分布的檢驗(yàn)方法。擬合優(yōu)度檢驗(yàn)與本書第 7 章將要介紹的獨(dú)立性檢驗(yàn)基本相同。在擬合優(yōu)度檢驗(yàn)中,皮爾遜提出了將遵循卡方分布的統(tǒng)計(jì)量作為衡量觀察頻數(shù)與期望頻數(shù)之間差異的標(biāo)準(zhǔn)〔不過(guò),卡方分布本身是由測(cè)地學(xué)家弗里德里希 ? 羅伯特 ? 赫爾默特(Friedrich Robert Helmert)發(fā)現(xiàn)的〕。除了整理出第一張完整的統(tǒng)計(jì)表,皮爾遜還提出了一個(gè)參數(shù)估計(jì)方法——矩估計(jì)。
因費(fèi)歇爾和皮爾遜的兒子埃貢 ? 皮爾遜(Egon Pearson)等人提倡的推斷統(tǒng)計(jì)學(xué)登上歷史舞臺(tái),皮爾遜在晚年的存在感較弱,但近幾年他的著作《科學(xué)的規(guī)范》1 在世界范圍內(nèi)再次受到關(guān)注。該書是一本科學(xué)哲學(xué)書,主張“如果把科學(xué)比作語(yǔ)言,那么統(tǒng)計(jì)學(xué)就是對(duì)語(yǔ)言來(lái)說(shuō)必不可少的語(yǔ)法”。據(jù)說(shuō)愛(ài)因斯坦和夏目漱石也受到了這本書的影響。
1原書名為 The Grammar of Science,中文版由商務(wù)印書館于 2012 年出版。——譯者注
1.4 變量的關(guān)聯(lián)性①:~相關(guān)系數(shù)~

我們把兩個(gè)變量(如廣告費(fèi)和銷售額,氣溫和收成,玩游戲的時(shí)間和成績(jī)等)之間存在的“一個(gè)變量增大,另一個(gè)變量也會(huì)增大”“一個(gè)變量增大,另一個(gè)變量會(huì)減小”這種線性關(guān)系稱為相關(guān)。
皮爾遜積矩相關(guān)系數(shù)
● 表示相關(guān)程度的指標(biāo),其值在 -1 和 1 之間。
變量 和變量
的相關(guān)系數(shù)的計(jì)算公式如下所示。

越接近 1,正相關(guān)的程度就越高(一個(gè)變量增大,另一個(gè)變量也會(huì)增大;一個(gè)變量減小,另一個(gè)變量也會(huì)減小),散布圖上的點(diǎn)由左下朝右上分布。

相反, 越接近 -1,負(fù)相關(guān)的程度就越高(一個(gè)變量增大,另一個(gè)變量就會(huì)減小;一個(gè)變量減小,另一個(gè)變量就會(huì)增大),散布圖上的點(diǎn)由左上朝右下分布。

接近 0 表示沒(méi)有關(guān)系(不相關(guān)),散布圖上的點(diǎn)呈圓形分布。

相關(guān)系數(shù)(coefficient of correlation)…表示兩個(gè)變量之間的關(guān)聯(lián)(相關(guān))程度的指標(biāo)。相關(guān)系數(shù)越接近 1,正相關(guān)就越強(qiáng);越接近 -1,負(fù)相關(guān)就越強(qiáng);0 表示不相關(guān)。
專欄 偉人傳②

將相關(guān)系數(shù)確定下來(lái)的人是皮爾遜,但最先想到這個(gè)概念的人是他的師父——優(yōu)生學(xué)家高爾頓。
1822 年,高爾頓出生于英國(guó)伯明翰一個(gè)富裕的銀行家庭。雖然他遵從父親的意見(jiàn)進(jìn)入醫(yī)學(xué)院學(xué)習(xí),但后來(lái)還是去了劍橋大學(xué)學(xué)習(xí)數(shù)學(xué)。大學(xué)畢業(yè)時(shí),高爾頓的父親過(guò)世了。自此之后,他便經(jīng)常去非洲探險(xiǎn),接觸不同人種,這讓他走上了優(yōu)生學(xué)的道路。
1875 年,高爾頓試圖證明人類的身高與遺傳有關(guān),進(jìn)而為優(yōu)生學(xué)提供佐證。他首先使用易于收集數(shù)據(jù)的香豌豆來(lái)調(diào)查種子的重量是否會(huì)遺傳。與預(yù)想的一樣,比較重的香豌豆種子在成長(zhǎng)后結(jié)出的種子也比較重。不過(guò),他發(fā)現(xiàn)了另一個(gè)非常有趣的現(xiàn)象—與父代相比,子代的重量離散程度較小。高爾頓認(rèn)為,生物的性狀之所以沒(méi)有出現(xiàn)極端變化,是因?yàn)楦鞔饾u趨向于祖先的平均類型。這種現(xiàn)象稱為“回歸”。通過(guò)在英國(guó)對(duì)大量父母和子女的身高進(jìn)行調(diào)查,高爾頓確認(rèn)該現(xiàn)象也會(huì)發(fā)生在人類身上。為了衡量父母和子女間身高的相關(guān)程度,他提出了相關(guān)系數(shù)。
高爾頓留下許多著作。他還提出了四分位距、中位數(shù),以及預(yù)測(cè)天氣時(shí)需要用到的多元回歸分析的基本思路。另外,在使用指紋搜查罪犯方面,高爾頓也做出了貢獻(xiàn)。他是一名多產(chǎn)、多才的科學(xué)家。晚年,以和遠(yuǎn)親弗洛倫斯 ? 南丁格爾(Florence Nightingale)的一次談話為契機(jī),他在大學(xué)設(shè)立了統(tǒng)計(jì)學(xué)專業(yè)。諸如此類,高爾頓的一生對(duì)近代統(tǒng)計(jì)學(xué)做出了巨大貢獻(xiàn)。1911 年,高爾頓病逝,享年 89 歲。
1.5 變量的關(guān)聯(lián)性②:~等級(jí)相關(guān)~

在只能使用定序數(shù)據(jù)或者兩個(gè)變量之間非線性相關(guān)(散布圖呈曲線形狀)時(shí),需要用到等級(jí)相關(guān)系數(shù)。
斯皮爾曼等級(jí)相關(guān)系數(shù)
● 對(duì)定序數(shù)據(jù)進(jìn)行計(jì)算的皮爾遜積矩相關(guān)系數(shù)就是斯皮爾曼等級(jí)相關(guān)系數(shù)。
如果數(shù)據(jù)是連續(xù)變量(變量值連續(xù)),要先將其轉(zhuǎn)換為定序數(shù)據(jù)。
肯德爾等級(jí)相關(guān)系數(shù)
● 肯德爾等級(jí)相關(guān)系數(shù)著眼于 的等級(jí)和
的等級(jí)是否一致,用于衡量它們的相關(guān)程度。
關(guān)于消費(fèi)者 1 的定序數(shù)據(jù) 與消費(fèi)者 2 的定序數(shù)據(jù)
,判斷如下。
①當(dāng) 且
,或者
且
時(shí)→等級(jí)一致
②當(dāng) 且
,或者
且
時(shí)→等級(jí)不一致
等級(jí)相關(guān)系數(shù)(coefficient of rank correlation)…測(cè)量?jī)蓚€(gè)定序變量之間相關(guān)程度的指標(biāo)。等級(jí)相關(guān)系數(shù)中有斯皮爾曼等級(jí)相關(guān)系數(shù)和肯德爾等級(jí)相關(guān)系數(shù)。具體使用哪一個(gè),沒(méi)有明確的基準(zhǔn)。
關(guān)于 3 位消費(fèi)者的定序數(shù)據(jù),“等級(jí)一致”時(shí)標(biāo)記為○,“等級(jí)不一致”時(shí)標(biāo)記為×。
當(dāng) =○ 的個(gè)數(shù),
=× 的個(gè)數(shù),
=數(shù)據(jù)對(duì)的個(gè)數(shù)(該示例中為 4)時(shí),肯德爾等級(jí)相關(guān)系數(shù)的計(jì)算公式如下所示。存在相同等級(jí)時(shí),計(jì)算公式不同。

關(guān)于組合數(shù)
● 將 A、B、C、D 兩兩組合,可得到 (A, B)(A, C)(A, D)(B, C)(B, D)(C, D) 這 6 種組合方式。這時(shí),(A, B) 與(B, A) 是相同的。
● 在 A、B、C、D、E 的情況下,組合方式有 10 種,分別為 (A, B)(A, C)(A, D)(A, E)(B, C)(B, D)(B, E)(C, D)(C, E)(D, E)。
● 通常,從 個(gè)元素中取出 2 個(gè)元素的組合數(shù)可通過(guò)公式
求出。另外,從
個(gè)元素中取出
個(gè)元素的組合數(shù)的計(jì)算公式是
。〔
表示
的階乘,計(jì)算公式為
。〕
組合(combination)…從 個(gè)不同的元素中取出
個(gè)元素的方法。
- 天氣變化百問(wèn)百答(青少年科普知識(shí)百問(wèn)百答叢書)
- 很雜很雜的雜學(xué)知識(shí)(升級(jí)版)
- 考古證明的歷史(探索人類起源之謎)
- 金字塔未解之謎(世界未解之謎精編)
- 自然博物館的奧秘:人之由來(lái)
- 兒童人身安全防護(hù)書
- 啟發(fā)青少年的100個(gè)天外探秘故事
- 生物非常曝光
- 世界著名節(jié)假日常識(shí)
- 人類大劫難(青少年看世界·百科系列)
- 魔獸超級(jí)搞怪
- 生活之中有科學(xué)
- 奇山峻峰之景(圖解中國(guó)地理·第1輯)
- 迷人的誤解:從引力、宇宙到生命、進(jìn)化,萬(wàn)物運(yùn)轉(zhuǎn)背后的神奇盲區(qū)
- 化學(xué)知識(shí)百科