- 用Python動手學統計學
- (日)馬場真哉
- 1263字
- 2021-12-27 10:06:21
1-2 獲取樣本的過程
樣本是經過怎樣的步驟進入我們手里的呢?本節就來梳理這個過程。
1-2-1 術語 隨機變量
根據隨機法則變化的量叫作隨機變量。理解隨機變量為什么重要十分關鍵。
1-2-2 湖中釣魚的例子
為了便于說明,這里舉一個例子。假設有一片小湖,我們在此釣魚。小湖里只有 1 種魚,其他河流湖泊里的魚也不會游進來。魚的釣取難度完全相同。釣起的魚還要放回湖中,保證湖中魚的數目不變。魚也不會傷亡。
現在釣出了 1 條魚,那么這條魚就是樣本,湖中的所有魚就是總體。
從總體中獲取樣本叫作抽樣。在上例中,我們釣出湖中所有魚的一部分,這就相當于完成了一次抽樣。
測量魚的體長后,四舍五入取整,得到的結果是 3 cm。
1-2-3 從總體中獲取樣本的過程
假設明天也使用相同的裝備去同一片湖釣魚,這次也只釣 1 條。那么這次釣起的魚會是多長呢?
這時就要請出對這片湖無所不知的湖博士了。假設湖博士知道湖中所有魚的體長,那么這就意味著能夠完美地推斷總體。
從湖博士那里知道湖里有 5 條魚,體長分別如下所示(四舍五入取整)。
2 cm:1 條
3 cm:1 條
4 cm:1 條
5 cm:1 條
6 cm:1 條
這里重申一下:湖里只有 5 條魚(雖然有點少)。釣起 1 條魚的動作和從這 5 條魚中任選 1 條的動作等價。
不過,就算能完美地推斷總體,我們也無法知道明天會從這 5 條魚中釣出哪條。
釣出 2 cm 長的那條魚的概率是 20%。
釣出 5 cm 長的那條魚的概率也是 20%。
如果要預測明天釣出的魚的體長,我們可以回答“體長是 2 cm 的概率是 20%”,但無法說釣取的魚體長一定是 2 cm。
湖中游著 5 條魚,體長分別如上所示,這些是已知的。然而,明天釣到的那條魚的體長則是隨機變化的,畢竟我們也不知道明天會釣到哪條魚。
明天既能以 20% 的概率釣到 2 cm 長的魚,也能以 20% 的概率釣到 3 cm 長的魚。像這樣,明天所釣到的魚的體長會隨機變化,所以我們就把這個體長看作隨機變量,即把樣本看作隨機變量。
1-2-4 術語 樣本值
下面開始講解統計學的術語。
由隨機變量得來的具體數值叫作樣本值。
之所以專門存在樣本值這個說法,是為了更明確地表示存在未知數據。
在釣到 3 cm 長的魚的情況下,3 cm 這個數據就是樣本值。當然了,湖里還有 2 cm 和 4 cm 長的魚,如果這次釣到的是它們也不奇怪。
1-2-5 術語 抽樣
從總體中獲取樣本叫作抽樣。
從湖中釣魚并測得魚的體長數據,就是抽樣。
通過問卷調查得到調查結果,也是抽樣。
投擲骰子并記下得到的點數,同樣是抽樣。
1-2-6 術語 簡單隨機抽樣
隨機選擇總體中各個元素的方法叫作簡單隨機抽樣。隨機釣起 1 條魚的行為就可以說是簡單隨機抽樣,也簡稱為隨機抽樣。
本書例子中的樣本一般認為是通過簡單隨機抽樣獲取的。也就是說,如果有 5 條魚,就規定每條魚被選中的概率是 1/5;如果有 10 000 條魚,則規定每條魚被選中的概率是 1/10 000。
1-2-7 術語 樣本容量
樣本的大小或現有數據的個數叫作樣本容量。
釣到 1 條魚,則樣本容量是 1。
樣本容量就是樣本的大小,一般使用“大”和“小”描述,而非“多”和“少”。
1-2-8 術語 普查與抽樣調查
調查完整的總體叫作普查。
只調查總體的一部分叫作抽樣調查。
湖博士曾經進行了普查,所以知道湖中的所有情況。不過,能進行普查的機會很少,一般只能根據總體的一部分(樣本)來推斷總體。
- Java語言程序設計
- Java程序設計(慕課版)
- PaaS程序設計
- Java開發入行真功夫
- Learning AndEngine
- 從學徒到高手:汽車電路識圖、故障檢測與維修技能全圖解
- Haxe Game Development Essentials
- ExtJS高級程序設計
- Instant Zurb Foundation 4
- App Inventor少兒趣味編程動手做
- Appcelerator Titanium:Patterns and Best Practices
- 人人都能開發RPA機器人:UiPath從入門到實戰
- Drupal 8 Development Cookbook(Second Edition)
- Mastering ASP.NET Core 2.0
- Web前端開發最佳實踐