- 用Python動(dòng)手學(xué)統(tǒng)計(jì)學(xué)
- (日)馬場(chǎng)真哉
- 8字
- 2021-12-27 10:06:20
第 1 章 統(tǒng)計(jì)學(xué)基礎(chǔ)
1-1 統(tǒng)計(jì)學(xué)
本節(jié)將介紹統(tǒng)計(jì)學(xué)的目標(biāo),以及學(xué)習(xí)統(tǒng)計(jì)學(xué)能給我們帶來(lái)的好處。
1-1-1 統(tǒng)計(jì)學(xué)的目標(biāo)①:描述現(xiàn)有數(shù)據(jù)
什么是統(tǒng)計(jì)學(xué)?統(tǒng)計(jì)學(xué)是尋找更好的數(shù)據(jù)應(yīng)用方法的學(xué)科。
數(shù)據(jù)分為兩種:一種是我們已經(jīng)拿在手中的現(xiàn)有數(shù)據(jù),另一種是尚未在我們手中的未知數(shù)據(jù)。
整理和歸納現(xiàn)有數(shù)據(jù),就是統(tǒng)計(jì)學(xué)的目標(biāo)。數(shù)據(jù)就是許多數(shù)值的集合。在研究數(shù)據(jù)時(shí)會(huì)有兩方面的問(wèn)題:一方面,單純觀察 {1, 5, 3, 6, 4} 之類(lèi)的數(shù)值集合,無(wú)法從中得到任何信息;另一方面,如果這樣的集合里有 1 萬(wàn)個(gè)數(shù)值,那么即便是單純的觀察,也很難做到。
在這種情況下,統(tǒng)計(jì)學(xué)就派上用場(chǎng)了。我們可以基于統(tǒng)計(jì)學(xué)計(jì)算出能夠代表這些數(shù)值的指標(biāo)。比如,可以計(jì)算上述數(shù)值的平均數(shù),結(jié)果為 3.8。逐一查看大量的數(shù)值確實(shí)是一種誠(chéng)懇的做法,但這太花費(fèi)時(shí)間了。整理和歸納可以幫助我們更方便地理解數(shù)據(jù)。
為了整理、歸納現(xiàn)有數(shù)據(jù)而產(chǎn)生的統(tǒng)計(jì)學(xué)分支,叫作描述統(tǒng)計(jì)。
1-1-2 統(tǒng)計(jì)學(xué)的目標(biāo)②:估計(jì)未知數(shù)據(jù)
為了估計(jì)不在我們手中的未知數(shù)據(jù)而產(chǎn)生的統(tǒng)計(jì)學(xué)分支叫作統(tǒng)計(jì)推斷。像“明天的銷(xiāo)量數(shù)據(jù)”這種未來(lái)的數(shù)據(jù)就屬于未知數(shù)據(jù)。
未知數(shù)據(jù)不好處理,但是如果我們沒(méi)有一點(diǎn)頭緒,數(shù)據(jù)分析基本上就沒(méi)有什么意義了。
以紅鞋和藍(lán)鞋的銷(xiāo)量為例,假設(shè)直到今晚都是紅鞋賣(mài)得好,而賣(mài)家卻對(duì)明天的銷(xiāo)量這個(gè)未知數(shù)據(jù)毫無(wú)頭緒:“到今天為止紅鞋銷(xiāo)量一直很好,但誰(shuí)知道明天哪種會(huì)賣(mài)得好呢。”
真希望他能靈活應(yīng)用數(shù)據(jù)啊!
因?yàn)楦鶕?jù)歷史數(shù)據(jù),紅鞋賣(mài)得好,所以明天也應(yīng)該增加紅鞋的庫(kù)存。
以上建議就是基于歷史數(shù)據(jù)的推斷:正因?yàn)楝F(xiàn)有數(shù)據(jù)指出紅鞋銷(xiāo)量好,所以即使我們還不知道明天的銷(xiāo)量數(shù)據(jù),也能估計(jì)明天紅鞋會(huì)賣(mài)得好。這也算是一種銷(xiāo)量估計(jì)。
使用現(xiàn)有數(shù)據(jù)能推斷未知數(shù)據(jù)——這可以說(shuō)是學(xué)習(xí)統(tǒng)計(jì)學(xué)給我們帶來(lái)的最大好處。
1-1-3 術(shù)語(yǔ) 樣本與總體
為了防止讀者混亂,本書(shū)在解釋每個(gè)術(shù)語(yǔ)時(shí)都會(huì)單列一節(jié)。接下來(lái)我們將講解學(xué)習(xí)統(tǒng)計(jì)學(xué)這個(gè)學(xué)科時(shí)必須掌握的術(shù)語(yǔ)。
樣本是指現(xiàn)有數(shù)據(jù)。
總體是指既包含現(xiàn)有數(shù)據(jù)也包含未知數(shù)據(jù)的全部數(shù)據(jù)。
只使用樣本這一部分?jǐn)?shù)據(jù)來(lái)討論總體這一全部數(shù)據(jù)就是統(tǒng)計(jì)推斷的目標(biāo)。請(qǐng)讀者務(wù)必牢記這兩個(gè)術(shù)語(yǔ)。
1-1-4 1-2 節(jié)及之后的內(nèi)容
統(tǒng)計(jì)推斷的目標(biāo)是只使用樣本來(lái)討論總體,但是從一開(kāi)始就直奔主題會(huì)非常困難。因此,為了最終實(shí)現(xiàn)統(tǒng)計(jì)推斷的目標(biāo),本書(shū)會(huì)先從基礎(chǔ)知識(shí)開(kāi)始講起。
1-2 節(jié) ~ 1-4 節(jié)將介紹進(jìn)行總體的推斷所必需的基礎(chǔ)知識(shí)。
在 1-2 節(jié)和 1-3 節(jié),我們將以總體完全已知為前提進(jìn)行講解。筆者認(rèn)為這樣安排能方便讀者掌握術(shù)語(yǔ)。隨機(jī)變量與概率分布這兩個(gè)術(shù)語(yǔ)看起來(lái)很抽象,但理解它們的重要性十分關(guān)鍵。1-4 節(jié)將介紹如何整理和歸納現(xiàn)有數(shù)據(jù)。
在 1-5 節(jié),我們將首次以總體未知為前提來(lái)思考推斷總體的方法。
1-6 節(jié)將介紹更高效地推斷總體的方法。讀完這一節(jié),讀者就應(yīng)該能對(duì)統(tǒng)計(jì)推斷的概況有個(gè)基本認(rèn)識(shí)了。
1-1 節(jié) ~ 1-6 節(jié)幾乎沒(méi)有使用數(shù)學(xué)式,也大膽地略去了“概率”這個(gè)詞的定義。這樣有助于初學(xué)者更容易地理解統(tǒng)計(jì)推斷的整體情況。
不過(guò),只閱讀 1-1 節(jié) ~ 1-6 節(jié),讀者對(duì)相關(guān)內(nèi)容的印象還會(huì)有些模糊。我們將在 1-7 節(jié) ~ 1-9 節(jié)通過(guò)數(shù)學(xué)式來(lái)補(bǔ)充說(shuō)明。
1-7 節(jié)將介紹均值、期望值和方差這幾個(gè)統(tǒng)計(jì)量的計(jì)算式,并講解這些式子的含義。1-8 節(jié)將介紹承擔(dān)統(tǒng)計(jì)學(xué)核心功能的概率的概念及應(yīng)用。1-9 節(jié)將對(duì)隨機(jī)變量和概率分布加以總結(jié),以做出更準(zhǔn)確的解釋。
在第 3 章,我們將通過(guò) Python 程序模擬來(lái)復(fù)習(xí)第 1 章的內(nèi)容。如果讀者覺(jué)得 1-7 節(jié) ~ 1-9 節(jié)的數(shù)學(xué)式比較難理解,不妨大致讀一下就跳過(guò),待到第 3 章時(shí)再借助程序進(jìn)行復(fù)習(xí)。
- PHP網(wǎng)絡(luò)編程學(xué)習(xí)筆記
- JavaScript+Vue+React全程實(shí)例
- Kotlin Standard Library Cookbook
- Java Web程序設(shè)計(jì)任務(wù)教程
- D3.js 4.x Data Visualization(Third Edition)
- Jupyter數(shù)據(jù)科學(xué)實(shí)戰(zhàn)
- C++寶典
- Solr Cookbook(Third Edition)
- SQL Server 2008 R2數(shù)據(jù)庫(kù)技術(shù)及應(yīng)用(第3版)
- 30天學(xué)通C#項(xiàng)目案例開(kāi)發(fā)
- 零基礎(chǔ)C#學(xué)習(xí)筆記
- 嵌入式C編程實(shí)戰(zhàn)
- Java性能權(quán)威指南
- 區(qū)塊鏈技術(shù)與智能服務(wù)應(yīng)用
- 物聯(lián)網(wǎng)及低功耗藍(lán)牙5.x高級(jí)開(kāi)發(fā)