2.1 統計分析
統計學是研究如何搜集資料、整理資料和進行量化分析、推斷的一門科學,在科學計算、工業和金融等領域有著重要應用。統計分析是機器學習的基本方法。例如,確定某種癌癥的誘發因素、垃圾郵件檢測、財務預測、遺傳學、市場分析、識別手寫數字等,都與統計分析有著緊密的聯系。與統計分析相關的基本概念有以下幾個。
(1)總體:根據一定目的確定的所要研究事物的全體。
(2)樣本:從總體中隨機抽取的若干個體構成的集合。
(3)推斷:以樣本所包含的信息為基礎,對總體的某些特征做出判斷、預測和估計。
(4)推斷可靠性:對推斷結果從概率上的確認,是決策的重要依據。
統計分析分為描述性統計和推斷性統計。描述性統計是通過對樣本進行整理、分析并就數據的分布情況獲取有意義的信息,從而得到結論。推斷性統計又分為參數估計和假設檢驗,參數估計是對樣本整體中某個數值進行估計,如推斷總體平均值等;而假設檢驗是通過對所做的推斷進行驗證,從而選擇行動方案。