- Python機器學習算法與應用
- 鄧立國
- 1733字
- 2020-11-23 14:57:11
2.1.2 數據分布離散程度的測定
數據分布的離散程度是描述數據分布的另一個重要特征,反映各變量值遠離其中心值的程度,因此也稱為離中趨勢。它從另一個側面說明了集中趨勢測度值的代表程度。不同類型的數據有不同的離散程度測度值。描述數據離散程度的測度值主要有異眾比率、極差、四分位差、平均差、方差和標準差、離散系數等。這些指標又稱為變異指標。
1.異眾比率
異眾比率的作用是衡量眾數對一組數據的代表性程度的指標。異眾比率越大,說明非眾數組的頻數占總頻數的比重越大,眾數的代表性就越差;反之,異眾比率越小,眾數的代表性就越好。異眾比率主要用于測度定類數據、定序數據的離散程度。

(2.18)
其中,∑Fi為變量值的總頻數;Fm為眾數組的頻數。
2.極差
極差是一組數據的最大值與最小值之差,離散程度的最簡單測度值。極差的測度如下:
· 未分組數據:R = max(Xi)-min(Xi)
(2.19)
· 組距分組數據:R=最高組上限-最低組下限
3.四分位差
中位數是從中間點將全部數據等分為兩部分。與中位數類似的還有四分位數、八分位數、十分位數和百分位數等。它們分別是用3個點、7個點、9個點和99個點將數據四等分、八等分、十等分和一百等分后各分位點上的值。這里只介紹四分位數的計算,其他分位數與之類似。
一組數據排序后處于25%和75%位置上的值稱為四分位數,也稱四分位點。四分位數通過3個點將全部數據等分為4部分,其中每部分包含25%的數據。很顯然,中間的分位數就是中位數,因此通常所說的四分位數是指處在25%位置上的數值(下四分位數)和處在75%位置上的數值(上四分位數)。與中位數的計算方法類似,根據未分組數據計算四分位數時,首先對數據進行排序,然后確定四分位數所在的位置。
(1)四分位數確定
設下四分位數為QL,上四分位數為QU。
①未分組數據

(2.20)
當四分位數的位置不在某一個位置上時,可根據四分位數的位置,按比例分攤四分位數兩側的差值。
②單變量值分組數據

(2.21)
③組距分組數據

(2.22)
(2)四分位差
四分位數是離散程度的測度值之一。上四分位數與下四分位數之差稱為四分位差,亦稱為內距或四分間距(Inter-quartile Range),用Qd表示。四分位差的計算公式為:

(2.23)
4.平均差(Mean Deviation)
平均差是各變量值與其算術平均數離差絕對值的平均數,用Md表示,是離散程度的測度值之一。平均差能全面反映一組數據的離散程度,但該方法的數學性質較差,實際中應用較少。
(1)簡單平均法
對于未分組數據,采用簡單平均法。其計算公式為:

(2.24)
(2)加權平均法
在數據分組的情況下,應采用加權平均式:

(2.25)
5.方差和標準差(Variance、Standard Deviation)
方差和標準差同平均差一樣,也是根據全部數據計算的,反映每個數據與其算術平均數相比平均相差的數值,因此能夠準確地反映出數據的差異程度。與平均差的不同之處是在計算時的處理方法不同,平均差是取離差的絕對值消除正負號,而方差、標準差是取離差的平方消除正負號,更便于數學上的處理。因此,方差、標準差是實際中應用最廣泛的離中程度度量值。
①設總體的方差為,標準差為
,對于未分組整理的原始數據,方差和標準差的計算公式分別為:

(2.26)
②對于分組數據,方差和標準差的計算公式分別為:

(2.27)
③樣本的方差、標準差與總體的方差、標準差在計算上有所差別。總體的方差和標準差在對各個離差平方平均時是除以數據個數或總頻數,而樣本的方差和標準差在對各個離差平方平均時是用樣本數據個數或總頻數減1(自由度)去除總離差平方和。
設樣本的方差為S2、標準差為S,對于未分組整理的原始數據,方差和標準差的計算公式為:

(2.28)
對于分組數據,方差和標準差的計算公式為:

(2.29)
當n很大時,樣本方差S2與總體的方差的計算結果相差很小,這時樣本方差也可以用總體方差的公式來計算。
6.相對離散程度:離散系數
前面介紹的全距、平均差、方差和標準差都是反映一組數值變異程度的絕對值,其數值的大小不僅取決于數值的變異程度,還與變量值水平的高低、計量單位的不同有關。所以,不宜直接利用上述變異指標對不同水平、不同計量單位的現象進行比較,應當先做無量綱化處理,即將上述反映數據的絕對差異程度的變異指標轉化為反映相對差異程度的指標,然后進行對比。離散系數通常用V表示,常用的離散系數為標準差系數。測度了數據的相對離散程度,用于對不同組別數據離散程度的比較計算公式為:

(2.30)
- JavaScript從入門到精通(微視頻精編版)
- C#高級編程(第10版) C# 6 & .NET Core 1.0 (.NET開發經典名著)
- Interactive Data Visualization with Python
- .NET 4.0面向對象編程漫談:基礎篇
- Python爬蟲開發與項目實戰
- 深入理解Android:Wi-Fi、NFC和GPS卷
- Frank Kane's Taming Big Data with Apache Spark and Python
- 后臺開發:核心技術與應用實踐
- scikit-learn Cookbook(Second Edition)
- Learning D
- INSTANT Premium Drupal Themes
- 自己動手構建編程語言:如何設計編譯器、解釋器和DSL
- Practical Time Series Analysis
- Unity3D高級編程:主程手記
- 軟件測試實驗實訓指南