- 從零進階!數據分析的統計基礎(第2版)
- 經管之家主編 曹正鳳編著
- 1957字
- 2021-10-29 11:59:51
2.5 數據分布的測定
在描述性統計中,一組數據的特征除了使用集中趨勢和離中趨勢來描述外,還使用其數據分布的形態來分析。什么叫數據分布?這個概念比較抽象,我們可以這樣理解,數據分布就是指當把取得的數據按某種分組畫出直方圖后,將每個直方形的上邊的中點用一根曲線連接在一起,也即擬合出一根曲線,當分組的區間越來越小時,直方圖就變成了一根平滑的曲線,由這根曲線和橫軸之間的面積,就組成了數據的分布。數據的分布用圖示的形式顯示了數據在哪個區間較多,在哪個區間較少,就像第1章中三國人物武力分布所示。各種數據有不同的數據分布曲線,在統計學中,有一個常用的數據分布,叫作正態分布,它在數軸上的形態如同一個倒鐘形,曲線以平均數為中心,左右對稱,曲線兩端永遠不與橫軸相交,曲線的高峰位于正中央,即平均數所在的位置,如圖2.15所示。

圖2.15 正態分布圖示
在描述性統計中,數據分布形態的測定主要以正態分布為標準進行衡量,一組數據的分布形狀是通過直方圖將該數據分布在數軸上擬合出一條曲線,將曲線的尖峭程度和對稱性與正態分布曲線相比較,其測試指標包括偏態和峰度。
2.5.1 數據偏態及其測定
數據分布的不對稱性稱作偏態。偏態是指數據分布的偏斜方向和程度。偏度,通常分為右偏(或正偏)與左偏(或負偏)兩種。它們是以對稱分布為標準相比較而言的。在對稱分布的情況下,平均數、中位數與眾數是合而為一的,即。在偏態分布的情況下,平均數、中位數與眾數是分離的。如果眾數在左邊,平均數在右邊,即數據的極端值在右邊,數據分布曲線向右延伸,則稱為右向偏態。右向偏態,眾數的數值較小,平均數的數值較大,平均數與眾數之差為正值,所以右向偏態又稱為正向偏態。如果眾數在右邊,平均數在左邊,即數據的極端值在左邊,數據分布曲線向左延伸,則稱為左向偏態。左向偏態,眾數的數值較大,平均數的數值較小,平均數與眾數之差為負值,所以左向偏態又稱為負向偏態。
測定偏態的指標是偏態系數。偏態系數(SK)是對數據分布的不對稱性(偏斜程度)的測定。偏態系數有多種計算方法,在統計軟件中(例如Excel等)通常采用以下公式:

其中:
——數據的平均值;
xi——每一個具體的數據值;
s——數據的標準差;
n——數據的個數。
在Excel中,有具體的函數實現這個公式,讀者只需要知道偏態系數是這樣算出來的就可以了,至于如何計算就不用深究了。當然在有些特殊場合是需要熟悉這個公式的,例如在使用Python或R自行開發統計算法,需要用到偏態系數時,就必須將此公式通過編程實現。也就是說,就數據分析師或非統計專業的人士而言,對于本書中的公式,只需要知道其大概特征就可以了,不需要全部都背下來和推導出來,本書后面的公式大體都是這個特點。
SK的含義如下。
SK=0時,分布是對稱的。
SK<0時,分布呈負偏態,SK值越小,負偏程度越高。
SK>0時,分布呈正偏態,SK值越大,正偏程度越高。
2.5.2 數據峰度及其測定
峰度是指數據分布的尖峭程度或峰凸程度。根據變量值的集中與分散程度,峰度一般可表現為三種形態:尖頂峰度、平頂峰度和標準峰度。當變量值的次數在眾數周圍分布比較集中,使次數分布曲線比正態分布曲線頂峰更為隆起尖峭,則稱為尖頂峰度;當變量值的次數在眾數周圍分布較為分散,使次數分布曲線比正態分布曲線更為平緩,則稱為平頂峰度。可見,尖頂峰度和平頂峰度都是相對正態分布曲線的標準峰度而言的。
測定峰度的指標是峰度系數。峰度系數(K)是對數據分布的尖峭程度的測定。峰度系數有多種計算方法,在統計軟件中(例如Excel等)通常采用以下公式:

其中:
——數據的平均值;
xi——每一個具體的數據值;
s——數據的標準差;
n——數據的個數。
K的含義如下。
峰度系數K<0,與正態分布相比,該分布一般為扁平、瘦尾,肩部較胖,如圖2.15所示。

圖2.16 平頂峰分布圖示
峰度系數K>0,與正態分布相比,該分布一般為尖峰、肥尾,肩部較瘦,如圖2.17所示。

圖2.17 尖頂峰分布圖示
2.5.3 數據偏度和峰度的作用
在實際的數據分析過程中,偏度和峰度的作用主要表現在以下兩個方面。
一是將偏度和峰度結合起來用于檢查樣本的分布是否屬于正態分布,以便判斷總體的分布。如果樣本的偏度系數接近于0而峰度系數接近于3,就可以推斷總體的分布是接近于正態分布的,用樣本來對總體進行測定時就可以看成是正態分布,否則就可以進行否認。
二是利用資料之間存在的偏度關系,對算術平均數、眾數、中位數進行推算。一般情況下,只要分布不是正態的,算術平均數、眾數m0、中位數me三者之間都存在以下關系。
右偏時,就有:>me>m0。
左偏時,就有:<me<m0。
根據經驗,在偏態適度時,不論是右偏還是左偏,三者之間的距離有近似的固定關系,即中位數與算術平均數的距離約等于眾數與算術平均數距離的1/3。據此,可以得出三個關系式:


利用以上三個關系式就可以在算術平均數、眾數、中位數這三個數中已知任意兩個數的條件下推算另一個數。
- Word 2010中文版完全自學手冊
- 使用GitOps實現Kubernetes的持續部署:模式、流程及工具
- 大數據導論
- 大數據架構和算法實現之路:電商系統的技術實戰
- Hadoop 3.x大數據開發實戰
- Spring MVC Beginner’s Guide
- 算力經濟:從超級計算到云計算
- Node.js High Performance
- Oracle 11g數據庫管理員指南
- ECharts數據可視化:入門、實戰與進階
- 成功之路:ORACLE 11g學習筆記
- 量化投資:交易模型開發與數據挖掘
- 數字孿生
- Reactive Programming in Kotlin
- Learning Libgdx Game Development