- 突圍算法:機器學(xué)習(xí)算法應(yīng)用
- 劉凡平
- 1875字
- 2020-09-05 00:31:27
2.1 數(shù)據(jù)的三個基本維度
數(shù)理統(tǒng)計是以概率論為基礎(chǔ)發(fā)展而來的一個數(shù)學(xué)分支,包括參數(shù)估計、假設(shè)檢驗、相關(guān)分析、試驗設(shè)計、非參數(shù)統(tǒng)計、過程統(tǒng)計等,從而為某種問題的決策和行動提供依據(jù)。認(rèn)識數(shù)據(jù)的基本過程有分析問題、確認(rèn)問題、收集數(shù)據(jù)、整理數(shù)據(jù)、統(tǒng)計推斷等,如圖2-1所示。

圖2-1
我們可以從數(shù)據(jù)的集中趨勢、離散趨勢、分布形態(tài)三方面對數(shù)據(jù)進行認(rèn)識,如表2-1所示。
表2-1

在實際問題中,很多數(shù)據(jù)看似隨機,其實隨機中隱藏著規(guī)律。因此需要進行足夠多次的觀察,其規(guī)律才能呈現(xiàn)出來。但是客觀上,通常只允許進行有限次的觀察,即只能獲得局部觀察資料。因此,數(shù)據(jù)的概率分布是對數(shù)據(jù)認(rèn)識的基礎(chǔ)。
2.1.1 集中趨勢
集中趨勢是一組數(shù)據(jù)的代表值,表示定量數(shù)據(jù)聚集在某個集中值周圍的趨勢情況。最常用的度量指標(biāo)是算術(shù)平均數(shù)、中位數(shù)和眾數(shù)等,相應(yīng)的描述或計算公式如表2-2所示。
表2-2

除表2-2中的度量指標(biāo)外,類似的指標(biāo)還有極端值調(diào)整平均數(shù)等。值得說明的是,算術(shù)平均數(shù)、中位數(shù)、眾數(shù)等雖然是最常見的集中趨勢度量方式,但是它們內(nèi)在的關(guān)系也可以呈現(xiàn)和說明數(shù)據(jù)的大致分布情況,如圖2-2所示。

圖2-2
(1)負偏態(tài)。當(dāng)眾數(shù)大于中位數(shù)且中位數(shù)大于算術(shù)平均數(shù)時,則整體屬于一個左偏的分布,即數(shù)據(jù)大部分集中在左側(cè)部分。
(2)正態(tài)。當(dāng)眾數(shù)、中位數(shù)、算術(shù)平均數(shù)相等時,則整體屬于一個比較對稱的分布,類似于正態(tài)分布,數(shù)據(jù)分布相對勻稱。
(3)正偏態(tài)。當(dāng)眾數(shù)小于中位數(shù)且中位數(shù)小于算術(shù)平均數(shù)時,則整體屬于一個右偏的分布,即數(shù)據(jù)大部分集中在右側(cè)部分。
雖然眾數(shù)、中位數(shù)和算術(shù)平均數(shù)都是通過一個數(shù)值來反映變量集中趨勢的,但是它們之間的差異也比較明顯:
(1)眾數(shù)僅表示觀測值中最大頻次數(shù),因此對觀測樣本的使用是不完全的;中位數(shù)只考慮了觀測值的順序和居中位置,對不按序排序的觀測值,無法反映不在中位的觀測值的大或小;算術(shù)平均數(shù)既考慮了頻次,又考慮了變量值的大小,因此對整體數(shù)據(jù)的反應(yīng)最為靈敏。
(2)雖然算術(shù)平均數(shù)對觀測值利用得最充分,但對嚴(yán)重偏態(tài)的分布,會失去它應(yīng)有的代表性。對于單峰和基本對稱的數(shù)據(jù),用算術(shù)平均數(shù)作為集中趨勢是合理的。對于偏態(tài)的分布,應(yīng)優(yōu)先使用中位數(shù)來度量集中趨勢。
2.1.2 離散趨勢
離散趨勢反映的是一個分布或隨機變量的壓縮和拉伸的程度,度量指標(biāo)主要有方差、標(biāo)準(zhǔn)差、變差系數(shù)、四分差、極差等,如表2-3所示。
表2-3

離散趨勢如圖2-3所示,兩圖均為正態(tài)分布,均值為0,但方差分別為2和1。
這些度量離散程度的值,通常是非負實數(shù):當(dāng)度量值取零時,表示分布集中在同一個值上;隨著度量值的增加,隨機變量的取值會越來越分散。

圖2-3
2.1.3 分布形態(tài)
偏度和峰度是表示數(shù)據(jù)分布形態(tài)的兩個典型特征。
1.偏度
偏度用于衡量隨機變量概率分布的不對稱性,通過對偏度系數(shù)的測量,能夠判定數(shù)據(jù)分布的不對稱程度及方向。
理想的分布形態(tài)是對稱的,但在現(xiàn)實生活中數(shù)據(jù)的分布并不完全對稱,而是或多或少地存在不同程度的非對稱情況。在統(tǒng)計上,我們把非對稱分布稱為偏態(tài),度量的方式稱作偏度。
偏度的值既可以為正值,也可以為負值。若偏度為正,則稱作正偏態(tài)(右偏),表示在概率密度函數(shù)右側(cè)的尾部比左側(cè)的長,絕大多數(shù)觀測值位于平均值的左側(cè)。若偏度為負,則稱作負偏態(tài)(左偏),表示在概率密度函數(shù)左側(cè)的尾部比右側(cè)的長,絕大多數(shù)觀測值位于平均值的右側(cè)。正偏態(tài)、正態(tài)、負偏態(tài)如圖2-4所示。

圖2-4
偏度的計算公式見式(2-1),其中n表示樣本數(shù)量,σ為標(biāo)準(zhǔn)差。

根據(jù)偏度計算公式,計算偏度的示例如表2-4所示。
表2-4

值得說明的是:一、當(dāng)偏度為零時,表示數(shù)值相對均勻地分布在平均值的兩側(cè),但不一定為對稱分布;二、偏度的正偏態(tài)、負偏態(tài)與數(shù)據(jù)的集中趨勢有一定的關(guān)系,如算術(shù)平均數(shù)、中位數(shù)和眾數(shù)等。
2.峰度
峰度用于衡量實數(shù)隨機變量分布的峰態(tài),是一個表明數(shù)據(jù)分布陡峭或平緩的指標(biāo)。峰度高意味著方差增大是由低頻度的大于或小于平均值的極端值引起的。
峰度的表現(xiàn)形式可以總結(jié)為峰度越大,則分布形態(tài)越陡峭,數(shù)值越集中;峰度越小,則分布形態(tài)越平緩,數(shù)值越分散,如圖2-5所示。

圖2-5
通常情況下,峰度被定義為四階累積量除以二階累積量的平方,它等于四階中心矩除以概率分布方差的平方再減3?!皽p3”是為了讓正態(tài)分布的峰度為0。峰度的計算公式見式(2-2),其中μ4是四階中心矩,σ是標(biāo)準(zhǔn)差。

式(2-2)也被稱為超值峰度,若該峰度值等于零,則表明觀測值扁平程度適中;若該峰度值小于零,則為扁平分布;若該峰度值大于零,則為尖峰分布。計算峰度的示例如表2-5所示。
表2-5

峰度在實際工作中有很多參考意義,例如,在方差相同的情況下,峰度越大,則存在極端值的可能性越高。根據(jù)筆者的經(jīng)驗,不同統(tǒng)計軟件中的峰度計算公式略有差別。
- AutoCAD 2014機械設(shè)計從入門到精通
- 計算機輔助設(shè)計項目實戰(zhàn)
- AutoCAD繪圖實訓(xùn)教程(2009版)
- 從零開始:AutoCAD 2010中文版建筑制圖基礎(chǔ)培訓(xùn)教程
- 基于MATLAB的遺傳算法及其在稀布陣列天線中的應(yīng)用(第2版)
- 中文版Pro/ENGINEER野火5.0技術(shù)大全
- Protel 99 SE原理圖與PCB設(shè)計及仿真
- AutoCAD學(xué)習(xí)掌中寶教程
- CAE分析大系:ABAQUS巖土工程實例詳解
- 大話設(shè)計模式
- 中文版SketchUp 8.0技術(shù)大全
- SolidWorks三維設(shè)計及工程圖應(yīng)用
- AI賦能SolidWorks機械與產(chǎn)品造型設(shè)計
- 從零開始:AutoCAD 2010中文版機械制圖基礎(chǔ)培訓(xùn)教程(中文版)
- UG NX 5.0工業(yè)造型典型范例(中文版)