2024新版捕鱼机

書名： Python機(jī)器學(xué)習(xí)算法與應(yīng)用
作者名：鄧立國
本章字?jǐn)?shù)： 2918字
更新時間： 2020-11-23 14:57:11

2.1.1　數(shù)據(jù)分布集中趨勢的測定

集中趨勢是指一組數(shù)據(jù)向某中心值靠攏的傾向，集中趨勢的測度實際上就是對數(shù)據(jù)一般水平代表值或中心值的測度。不同類型的數(shù)據(jù)用不同的集中趨勢測度值，低層次數(shù)據(jù)的集中趨勢測度值適用于高層次的測量數(shù)據(jù)，反過來，高層次數(shù)據(jù)的集中趨勢測度值并不適用于低層次的測量數(shù)據(jù)，選用哪一個測度值來反映數(shù)據(jù)的集中趨勢，要根據(jù)所掌握的數(shù)據(jù)類型來確定。

通常用平均指標(biāo)作為集中趨勢測度指標(biāo)，本節(jié)重點介紹眾數(shù)、中位數(shù)兩個位置平均數(shù)和算術(shù)平均數(shù)、調(diào)和平均數(shù)及幾何平均數(shù)3個數(shù)值型平均數(shù)。

1．眾數(shù)

眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值，用M₀表示。從變量分布的角度看，眾數(shù)是具有明顯集中趨勢點的數(shù)值，一組數(shù)據(jù)分布的最高峰點所對應(yīng)的變量值即為眾數(shù)。當(dāng)然，如果數(shù)據(jù)的分布沒有明顯的集中趨勢或最高峰點，眾數(shù)也可以不存在；如果有多個高峰點，也就有多個眾數(shù)。

（1）定類數(shù)據(jù)和定序數(shù)據(jù)眾數(shù)的測定

定類數(shù)據(jù)與定序數(shù)據(jù)計算眾數(shù)時，只需找出出現(xiàn)次數(shù)最多的組所對應(yīng)的變量值即為眾數(shù)。

（2）未分組數(shù)據(jù)或單變量值分組數(shù)據(jù)眾數(shù)的確定

未分組數(shù)據(jù)或單變量值分組數(shù)據(jù)計算眾數(shù)時，只需找出出現(xiàn)次數(shù)最多的變量值即為眾數(shù)。

（3）組距分組數(shù)據(jù)眾數(shù)的確定

組距分組數(shù)據(jù)，眾數(shù)的數(shù)值與其相鄰兩組的頻數(shù)分布有一定的關(guān)系，這種關(guān)系可做如下理解：

設(shè)眾數(shù)組的頻數(shù)為 ZQ-185-009_inline_0004 ，眾數(shù)前一組的頻數(shù)為 ZQ-185-009_inline_0005 ，眾數(shù)后一組的頻數(shù)為 ZQ-185-009_inline_0006 。當(dāng)眾數(shù)相鄰兩組的頻數(shù)相等時，即 ZQ-185-009_inline_0007 = ZQ-185-009_inline_0008 ，眾數(shù)組的組中值即為眾數(shù)；當(dāng)眾數(shù)組的前一組的頻數(shù)多于眾數(shù)組后一組的頻數(shù)時，即 ZQ-185-009_inline_0009 ＞ ZQ-185-009_inline_0010 ，眾數(shù)會向前一組靠，眾數(shù)小于其組中值；當(dāng)眾數(shù)組后一組的頻數(shù)多于眾數(shù)組前一組的頻數(shù)時，即 ZQ-185-009_inline_0011 ＜ ZQ-185-009_inline_0012 ，則眾數(shù)會向后一組靠，眾數(shù)大于其組中值。基于這種思路，借助于幾何圖形而導(dǎo)出的分組數(shù)據(jù)眾數(shù)的計算公式如下：

（2.1）

其中：L表示眾數(shù)所在組的下限；U表示眾數(shù)所在組的上限；i表示眾數(shù)所在組的組距；f_m為眾數(shù)組的頻數(shù)；f_-1為眾數(shù)組前一組的頻數(shù)；f₊₁為眾數(shù)組后一組的頻數(shù)。

上述下限和上限公式是假定數(shù)據(jù)分布具有明顯的集中趨勢，且眾數(shù)組的頻數(shù)在該組內(nèi)是均勻分布的。若這些假定不成立，則眾數(shù)的代表性就會很差。從眾數(shù)的計算公式可以看出，眾數(shù)是根據(jù)眾數(shù)組及相鄰組的頻率分布信息來確定數(shù)據(jù)中心點位置的。因此，眾數(shù)是一個位置代表值，不受數(shù)據(jù)中極端值的影響。

2．中位數(shù)

中位數(shù)是將總體各單位標(biāo)志值按大小順序排列后處于中間位置的那個數(shù)值。各變量值與中位數(shù)的離差絕對值之和最小，即：

（2.2）

（1）定序數(shù)據(jù)中位數(shù)的確定

定序數(shù)據(jù)中位數(shù)確定的關(guān)鍵是確定中間位置，中間位置所對應(yīng)的變量值即為中位數(shù)。

①未分組原始數(shù)據(jù)中間位置的確定：

（2.3）

②分組數(shù)據(jù)中間位置的確定：

（2.4）

（2）數(shù)值型數(shù)據(jù)中位數(shù)的確定

①未分組數(shù)據(jù)

將標(biāo)志值按大小排序，假設(shè)排序的結(jié)果為x₁≤x₂≤x₃≤…≤x_n，則：

（2.5）

②單變量值分組數(shù)據(jù)

（2.6）

③組距分組數(shù)據(jù)

根據(jù)位置公式確定中位數(shù)所在的組，假定在中位數(shù)組內(nèi)的各單位是均勻分布的，就可利用下面的公式計算中位數(shù)的近似值：

（2.7）

其中， ZQ-185-009_inline_0020 是到中位數(shù)組前面一組為止的向上累計頻數(shù)， ZQ-185-009_inline_0021 是到中位數(shù)組后面一組為止的向下累計頻數(shù)；f_m為中位數(shù)組的頻數(shù)；i為中位數(shù)組的組距。

3．算術(shù)平均數(shù)

算術(shù)平均數(shù)（Arithmetic Mean）也稱為均值（Mean），是全部數(shù)據(jù)算術(shù)平均的結(jié)果。算術(shù)平均法是計算平均指標(biāo)最基本、最常用的方法。算術(shù)平均數(shù)在統(tǒng)計學(xué)中具有重要的地位，是集中趨勢的最主要測度值，通常用 ZQ-185-009_inline_0022 表示。根據(jù)所掌握數(shù)據(jù)形式的不同，算術(shù)平均數(shù)有簡單算術(shù)平均數(shù)和加權(quán)算術(shù)平均數(shù)。

（1）簡單算術(shù)平均數(shù)（Simple Arithmetic Mean）

未經(jīng)分組整理的原始數(shù)據(jù)，其算術(shù)平均數(shù)的計算就是直接將一組數(shù)據(jù)的各個數(shù)值相加除以數(shù)值個數(shù)。設(shè)總體數(shù)據(jù)為X₁,X₂,…,X_n，樣本數(shù)據(jù)為x₁,x₂,…,x_n，則統(tǒng)計總體均值 ZQ-185-009_inline_0023 和樣本均值 ZQ-185-009_inline_0024 的計算公式為：

（2.8）

（2）加權(quán)算術(shù)平均數(shù)（Weighted Arithmetic Mean）

根據(jù)分組整理的數(shù)據(jù)計算的算術(shù)平均數(shù)要以各組變量值出現(xiàn)的次數(shù)或頻數(shù)為權(quán)數(shù)計算加權(quán)的算術(shù)平均數(shù)。設(shè)原始數(shù)據(jù)（總體或樣本數(shù)據(jù)）被分成K或k組，各組的變量值為X₁,X₂,…,X_K或x₁,x₂,…,x_k，各組變量值的次數(shù)或頻數(shù)分別為F₁,F₂,…,F_K或f₁,f₂,…,f_k，則總體或樣本的加權(quán)算術(shù)平均數(shù)為：

（2.9）

在公式（2.9）中，利用各組的組中值代表各組的實際數(shù)據(jù)，使用代表值時是假定各組數(shù)據(jù)在各組中是均勻分布的，但實際情況與這一假定會有一定的偏差，使得利用分組資料計算的平均數(shù)與實際的平均值會產(chǎn)生誤差，它是實際平均值的近似值。

加權(quán)算術(shù)平均數(shù)的數(shù)值大小不僅受各組變量值x_i大小的影響，還受各組變量值出現(xiàn)的頻數(shù)（權(quán)數(shù)f_i）大小的影響。如果某一組的權(quán)數(shù)大，說明該組的數(shù)據(jù)較多，那么該組數(shù)據(jù)的大小對算術(shù)平均數(shù)的影響就越大；反之，則越小。實際上，我們將公式（2.9）變形為公式（2.10）的形式，就更能清楚地看出這一點。

（2.10）

由公式（2.10）可以清楚地看出，加權(quán)算術(shù)平均數(shù)受各組變量值（x_i）和各組權(quán)數(shù)（頻率f_i/∑f_i）大小的影響。頻率越大，相應(yīng)的變量值計入平均數(shù)的份額越大，對平均數(shù)的影響就越大；反之，頻率越小，相應(yīng)的變量值計入平均數(shù)的份額越小，對平均數(shù)的影響就越小。這就是權(quán)數(shù)權(quán)衡輕重作用的實質(zhì)。

算術(shù)平均數(shù)在統(tǒng)計學(xué)中具有重要的地位，是進(jìn)行統(tǒng)計分析和統(tǒng)計推斷的基礎(chǔ)。從統(tǒng)計思想上看，算術(shù)平均數(shù)是一組數(shù)據(jù)的重心所在，是消除了一些隨機(jī)因素影響或者數(shù)據(jù)誤差相互抵消后的必然性結(jié)果。

算術(shù)平均數(shù)具有下面一些重要的數(shù)學(xué)性質(zhì)。這些數(shù)學(xué)性質(zhì)在實際中有著廣泛的應(yīng)用，同時也體現(xiàn)了算術(shù)平均數(shù)的統(tǒng)計思想。

①各變量值與其算術(shù)平均數(shù)的離差之和等于零，即：

（2.11）

②各變量值與其算術(shù)平均數(shù)的離差平方和最小，即：

（2.12）

4．調(diào)和平均數(shù)（Harmonic Mean）

在實際工作中，經(jīng)常會遇到只有各組變量值和各組標(biāo)志總量而缺少總體單位數(shù)的情況，這時就要用調(diào)和平均數(shù)法計算平均指標(biāo)。調(diào)和平均數(shù)是各個變量值倒數(shù)的算術(shù)平均數(shù)的倒數(shù)，習(xí)慣上用H表示，計算公式為：

（2.13）

調(diào)和平均數(shù)和算術(shù)平均數(shù)在本質(zhì)上是一致的，唯一的區(qū)別是計算時使用了不同的數(shù)據(jù)。在實際應(yīng)用時，可掌握這樣的原則：當(dāng)計算算術(shù)平均數(shù)的分子數(shù)據(jù)未知時，就采用加權(quán)算術(shù)平均數(shù)計算平均數(shù)；當(dāng)分母數(shù)據(jù)未知時，就采用加權(quán)調(diào)和平均數(shù)計算平均數(shù)。

（2.14）

5．幾何平均數(shù)（Geometric Mean）

幾何平均數(shù)是適應(yīng)于特殊數(shù)據(jù)的一種平均數(shù)，在實際生活中通常用來計算平均比率和平均速度。當(dāng)所掌握的變量值本身是比率的形式而且各比率的乘積等于總的比率時，就應(yīng)采用幾何平均法計算平均比率。

（2.15）

也可以看作算術(shù)平均數(shù)的一種變形：

（2.16）

6．眾數(shù)、中位數(shù)與算術(shù)平均數(shù)的關(guān)系

算術(shù)平均數(shù)與眾數(shù)、中位數(shù)的關(guān)系取決于頻數(shù)分布的狀況，它們的關(guān)系如下：

①當(dāng)數(shù)據(jù)具有單一眾數(shù)且頻數(shù)分布對稱時，算術(shù)平均數(shù)與眾數(shù)、中位數(shù)三者完全相等，即M₀=M_e= ZQ-185-009_inline_0037 。

②當(dāng)頻數(shù)分布呈現(xiàn)右偏態(tài)時，說明數(shù)據(jù)存在最大值，必然拉動算術(shù)平均數(shù)向極大值一方靠，則三者之間的關(guān)系為 ZQ-185-009_inline_0038 ＞M_e＞M₀。

③當(dāng)頻數(shù)分布呈現(xiàn)左偏態(tài)時，說明數(shù)據(jù)存在最小值，必然拉動算術(shù)平均數(shù)向極小值一方靠，而眾數(shù)和中位數(shù)是位置平均數(shù)，不受極值的影響，因此三者之間的關(guān)系為 ZQ-185-009_inline_0039 <M_e<M₀。

當(dāng)頻數(shù)分布出現(xiàn)偏態(tài)時，極端值對算術(shù)平均數(shù)產(chǎn)生很大的影響，而對眾數(shù)、中位數(shù)沒有影響，此時用眾數(shù)、中位數(shù)作為一組數(shù)據(jù)的中心值比算術(shù)平均數(shù)有較高的代表性。如果從數(shù)值上的關(guān)系來看，當(dāng)頻數(shù)分布的偏斜程度不是很大時，無論是左偏還是右偏，眾數(shù)與中位數(shù)的距離約為算術(shù)平均數(shù)與中位數(shù)的距離的兩倍，即：

（2.17）

官术网_书友最值得收藏!

Python機(jī)器學(xué)習(xí)算法與應(yīng)用

2.1.1 數(shù)據(jù)分布集中趨勢的測定