第 1 章　統計學基礎

1-1　統計學

本節將介紹統計學的目標，以及學習統計學能給我們帶來的好處。

什么是統計學？統計學是尋找更好的數據應用方法的學科。

數據分為兩種：一種是我們已經拿在手中的現有數據，另一種是尚未在我們手中的未知數據。

整理和歸納現有數據，就是統計學的目標。數據就是許多數值的集合。在研究數據時會有兩方面的問題：一方面，單純觀察 {1, 5, 3, 6, 4} 之類的數值集合，無法從中得到任何信息；另一方面，如果這樣的集合里有 1 萬個數值，那么即便是單純的觀察，也很難做到。

在這種情況下，統計學就派上用場了。我們可以基于統計學計算出能夠代表這些數值的指標。比如，可以計算上述數值的平均數，結果為 3.8。逐一查看大量的數值確實是一種誠懇的做法，但這太花費時間了。整理和歸納可以幫助我們更方便地理解數據。

為了整理、歸納現有數據而產生的統計學分支，叫作描述統計。

為了估計不在我們手中的未知數據而產生的統計學分支叫作統計推斷。像“明天的銷量數據”這種未來的數據就屬于未知數據。

未知數據不好處理，但是如果我們沒有一點頭緒，數據分析基本上就沒有什么意義了。

以紅鞋和藍鞋的銷量為例，假設直到今晚都是紅鞋賣得好，而賣家卻對明天的銷量這個未知數據毫無頭緒：“到今天為止紅鞋銷量一直很好，但誰知道明天哪種會賣得好呢。”

真希望他能靈活應用數據啊！

因為根據歷史數據，紅鞋賣得好，所以明天也應該增加紅鞋的庫存。

以上建議就是基于歷史數據的推斷：正因為現有數據指出紅鞋銷量好，所以即使我們還不知道明天的銷量數據，也能估計明天紅鞋會賣得好。這也算是一種銷量估計。

使用現有數據能推斷未知數據——這可以說是學習統計學給我們帶來的最大好處。

為了防止讀者混亂，本書在解釋每個術語時都會單列一節。接下來我們將講解學習統計學這個學科時必須掌握的術語。

樣本是指現有數據。

總體是指既包含現有數據也包含未知數據的全部數據。

只使用樣本這一部分數據來討論總體這一全部數據就是統計推斷的目標。請讀者務必牢記這兩個術語。

統計推斷的目標是只使用樣本來討論總體，但是從一開始就直奔主題會非常困難。因此，為了最終實現統計推斷的目標，本書會先從基礎知識開始講起。

1-2 節 ~ 1-4 節將介紹進行總體的推斷所必需的基礎知識。

在 1-2 節和 1-3 節，我們將以總體完全已知為前提進行講解。筆者認為這樣安排能方便讀者掌握術語。隨機變量與概率分布這兩個術語看起來很抽象，但理解它們的重要性十分關鍵。1-4 節將介紹如何整理和歸納現有數據。

在 1-5 節，我們將首次以總體未知為前提來思考推斷總體的方法。

1-6 節將介紹更高效地推斷總體的方法。讀完這一節，讀者就應該能對統計推斷的概況有個基本認識了。

1-1 節 ~ 1-6 節幾乎沒有使用數學式，也大膽地略去了“概率”這個詞的定義。這樣有助于初學者更容易地理解統計推斷的整體情況。

不過，只閱讀 1-1 節 ~ 1-6 節，讀者對相關內容的印象還會有些模糊。我們將在 1-7 節 ~ 1-9 節通過數學式來補充說明。

1-7 節將介紹均值、期望值和方差這幾個統計量的計算式，并講解這些式子的含義。1-8 節將介紹承擔統計學核心功能的概率的概念及應用。1-9 節將對隨機變量和概率分布加以總結，以做出更準確的解釋。

在第 3 章，我們將通過 Python 程序模擬來復習第 1 章的內容。如果讀者覺得 1-7 節 ~ 1-9 節的數學式比較難理解，不妨大致讀一下就跳過，待到第 3 章時再借助程序進行復習。