官术网_书友最值得收藏!

第二節 集中趨勢測量法

前面談了用分布來研究變量,這是最全面的研究方法。在很多情況下,我們并不需要對變量有詳盡的了解,而只是要了解其大概,或只要了解分布的主要特征以便簡化資料。例如,我們只要大概了解當前青年的結婚年齡等等。于是就產生了用某一個典型的變量值或特征值來代表變量全貌的問題。這個典型的變量值或特征值就稱作集中值或集中趨勢。當然這樣做的結果是會犧牲變量的某些信息的。我們的目的就在于選擇這樣的集中值,以便用它來估計或預測變量時所產生的誤差最小。根據這樣的原則,一般有三種方法來選擇集中值:一是根據頻次,哪個變量值具有的頻次最多,就選擇哪個變量值。例如,一個城市有多種產業,但如果以旅游業為最多,那就稱為旅游城市。當然,并不排斥城市中還會有其他產業。二是根據居中,舉例說,如果一個城市的居民生活水平,居中的是小康家庭,那么就用小康家庭來代表一個城市的生活水平。三是根據平均,常見的有用平均成績來代替一個班級、一個組的水平。下面給出三種集中值和它所適用的變量層次。

一、眾值M0

眾值就是用具有頻次最多的變量值來表示變量的集中值。從某種意義上來說,具有頻次最高的變量值,代表性也是最好的。如果變量X具有如下的分布(圖2-24):

圖 2-24

那么,它的眾值為M0=X2

對于連續型定距變量,如果變量在第i組具有最高的頻次密度,則用第i組中心值bi來表示變量的眾值。

眾值可適用于任何層次的變量,因為只要知道頻次分布,就能找到眾值。因此,是最易求出的。它特別適用于單峰對稱的情況。也是比較兩個分布是否相近首先要考慮的參數。對于多峰的圖形,由于眾值不唯一,一般不用它來討論。

二、中位值Md

中位值是變量的一個取值,它把觀察總數一分為二,其中一半具有比它小的變量值,另一半具有比它大的變量值。所以,中位值是數據序列之中央位置之變量值。

(一)未分組數據

1.根據原始資料求中位值。

當原始數據比較少時,可直接將資料按順序、大小排隊。

當觀察總數N為奇數:中位值的地方

或:

當觀察總數N為偶數時,由于中位值位于的地方不存在變量值,所以中位值取居中位置左右兩數的平均值為中位值。

2.根據頻次分布求中位值。

當原始數據很多時,這時可根據分布來求中位值(表2-18)。

表 2-18

中位值對于變量層次在定序以上的都可以使用。因此,對定序變量來說,有兩種集中值可供選擇。但由于眾值不考慮變量次序,所以對定序以上的變量,無疑是一個損失。定序變量一般采用中位值,以求其精確。

(二)分組數據

對于分組數據,可以通過累計百分比中的50%點求出。

1.根據統計表中的累計百分比,找出含有50%的區間(表2-19)。

表 2-19

2.求出含有50%區間的上界值U、下界值L、上界累計百分比U%、下界累計百分比L%和組距h:

3.利用線性插值法,求出累計百分比為50%的變量值(圖2-25)。

圖 2-25

除了用式(2-1)或式(2-2)計算中位值外,還可直接運用頻次來計算中位值,式(2-3)與式(2-1)或式(2-2)都是等效的。

其中n:中位值組的頻次

cf↑:含中位值區間的真實下界累積(向上)頻次

N:調查總數

中位值是50%分位點所對應的變量值。利用上面的方法,還可以求出10%,25%,75%等等任何一個分位點的變量值。

三、均值

均值僅適用于定距變量。用均值作為變量的集中值,不僅考慮到變量值的頻次、次序,而且還考慮到它的大小。數據資料中任何頻次、次序和數值大小的變化,都會引起均值的改變。因此它是靈敏的,也是對資料所提供信息運用得最充分的。

(一)未分組數據

1.根據原始資料求均值。

當原始數據比較少時,可直接累加觀察值,除以觀察總數,以求得均值。

:表示變量X的均值;

:表示資料所觀察到的變量值(觀察值)的總和;

N:觀察總數。

例如:

五戶干部家庭人數為:

7;3;11;10;4

六戶工人家庭人數為:

6;5;5;8;10;8

根據公式

可見,用集中值比較,說明干部家庭的平均人口與工人家庭的平均人口相同。

2.根據頻次分布求均值。

利用頻次分布可以簡化均值的計算。

公式:

其中n1X1表示變量值X1與它對應頻次n1的乘積;

n2X2表示變量值X2與它對應頻次n2的乘積;

nkXk表示變量值Xk與它對應頻次nk的乘積;

[例]1.求以下550人之平均分數(表2-20)。

表 2-20

為了便于計算值,一般可列如下表格(表2-21)。

表 2-21

如果給出的分布是比例(成數、頻率):

那么,均值計算還可以進一步簡化為:

為了便于計算值,一般可列如下表格(表2-22)。

表 2-22

(二)分組數據

對于分組數據,可用組中心值來代替變量值。計算方法與未分組數據相同。

例如,以下是對每天上網時間的統計(表2-23):

表 2-23

則均值為:

應該指出,用中心值計算的均值與用原始數據計算的均值相比是有誤差的。但對社會學來說,大多數情況下,其精確度已是足夠的了。

四、眾值、中位值和均值的比較

三值設計的目的是共同的,都是希望通過一個數值來描述整體特征,以便簡化資料。它們都是反映了變量的集中趨勢。一般說,

眾值:適用于定類、定序和定距變量

中位值:適用于定序和定距變量

均值:適用于定距變量。

但有時對于定序變量,如果求平均等級也可使用均值。對于定類變量,如果人為地把每類賦予一個數值,例如男=1;女=0。那么,男性在總體中所占的比例,實際就是這種特殊的均值。由于在統計技術中,發展更多的是均值,而不是中位值或眾值。因此,我們應該更多地想法用上均值。

眾值僅使用了資料中最大頻次這一信息。因此,資料使用是不完全的。實際上在兩份資料中只要最大頻次所對應的變量值相等,那么,用眾值來評價資料,兩者就沒有區別了。而中位值由于考慮了變量的順序和居中位置,因此,它和總體的頻次分布有關。但由于它只考慮居中位置,因此,其他變量值比中位值大多少或小多少是不影響中位值的。而均值由于既考慮到頻次,又考慮變量值的大小,因此它是最靈敏的。

雖然均值對資料的信息利用最充分,但對嚴重偏態的分布,會失去它應有的代表性。例如,一個國家會因某些少數富人的存在,使平均收入變得很高。因此,對于偏態的分布,應使用中位值作為集中趨勢。只有單峰和基本對稱的圖形,用均值作為集中趨勢才是合理的。

偏態和三值的關系如圖2-26、圖2-27和圖2-28。

圖2-26 對稱圖形

圖2-27 正偏圖形

圖2-28 負偏圖形

對于對稱的圖形,眾值、中位值和均值三者位置重疊。當圖形正偏或負偏時,均值變化最快,中位值次之,眾值不變。除了用眾值、中位值和均值反映資料的集中趨勢外,還有幾何平均值、調和平均值等等,這里不再介紹,有興趣的讀者可查閱有關的書籍。

最后需要強調,以上的討論,都是對單峰而言的。如果數據的分布呈雙峰,往往表示數據的實體不屬同一類型,這時討論眾值、中位值或均值都是沒有意義的。例如托兒所既有成人老師阿姨,又有不滿1米的幼童,如果混在一起,討論托兒所全體人員的集中趨勢,是沒有意義的。

主站蜘蛛池模板: 屏南县| 密山市| 房山区| 成都市| 津市市| 衡山县| 沂源县| 柳河县| 绿春县| 泾川县| 临高县| 容城县| 伊通| 吴堡县| 绥宁县| 左权县| 衡山县| 麦盖提县| 天等县| 南开区| 务川| 连州市| 平凉市| 合水县| 东光县| 静安区| 晋州市| 大庆市| 黄山市| 都兰县| 北票市| 光泽县| 神农架林区| 桦南县| 鄂托克旗| 惠州市| 雷波县| 盐亭县| 安国市| 朝阳区| 油尖旺区|