官术网_书友最值得收藏!

第2部分 利用SPSS進行統計分析

第2章 SPSS的基本統計分析

本章包括

◆ 基本統計量的定義和計算

◆ 頻數分析過程

◆ 描述性分析過程

◆ 探索性分析過程

數據處理和統計分析過程通常是從基本統計量的計算和描述開始的。通過計算諸如樣本均值、樣本標準差等重要的基本統計量,并輔助于SPSS提供的圖形功能,把握數據的基本特征和整體的分布形態,對進一步的統計推斷和數據建模工作將起到重要作用。另外,構建更復雜的統計算法同樣離不開基本統計量的計算。

基本統計分析通常包括以下內容:

(1)單變量頻數分布表的編制。

(2)基本統計量的計算。

(3)數據的探索性分析。

(4)多選項分析。

(5)比率分析。

SPSS for Windows中的許多模塊都具有基本統計量的計算和描述功能。Analyze菜單中的Descriptive Statistics模塊集中了最常用的基本統計分析的5個過程:Frequencies(頻數分析過程)、Descriptives(描述性分析過程)、Explore(數據探索過程)、Crosstabs(交叉列聯表過程)、Ratio (比率過程)。另外,在最新的SPSS中,圖形工具P-P Plots(P-P圖)和Q-Q Plots(Q-Q圖)也已集成到該模塊。

利用基本統計分析模塊,可以通過選擇菜單“Descriptive Statistics”(描述性統計分析)下的各個過程得到,如圖6.1所示。

圖6.1 “Descriptive Statistics”(描述性統計分析)下的各個模塊

6.1 基本統計量的定義和計算

SPSS提供的基本統計量可以分為三類:(1)描述集中趨勢的統計量;(2)描述離散程度的統計量;(3)描述總體分布形態的統計量。下面敘述基本統計量的定義和計算公式。

6.1.1 描述集中趨勢的統計量

統計學中的集中趨勢的統計量是由樣本值確定的,樣本值有向這個數據集中的趨勢。描述集中趨勢的統計量有很多,根據集中趨勢的定義不同,可以分為樣本均值、中位數等。

(1)均值(Mean)

又稱“算術平均值”,其數學定義為

這里,n為樣本容量,xi為樣本點的數值。樣本均值反映了變量取值的集中趨勢,或者平均水平,是最常用的基本統計量。例如,需要計算某一單位所有職工的平均工資;某一學校進行評比,需要計算各個班級學生某門課程的平均成績等。

(2)中位數(Median)

一組樣本數據按升序或降序排列后,如果樣本容量為奇數,則取中間位置的數值;如果為偶數,則取中間兩個數據的平均值。中位數受數據變化影響比均值要大,但不受極值的影響。在經濟部門的統計工作中應用較為廣泛,例如某公司職工年齡的中位數。

(3)眾數(Mode)

樣本中出現次數(頻數)最多的數值。

(4)百分位數(PercentiIe VaIue)

類似于隨機變量分位點的概念。將樣本數據按升序排列后,排在前面p%的數據時的右端點值稱為樣本的p分位數。常用的主要有四分位數(Quartiles),即將數據分成4等份,分別位于25%、50%和75%處的分位數。

6.1.2 描述離散趨勢的統計量

統計學中描述離散趨勢的統計量是樣本值遠離集中趨勢統計量程度的定量化描述。重要的描述離散趨勢的統計量有樣本方差、樣本標準差等。

(1)樣本方差(Variance)

數學定義為

這里,n為樣本容量,xi為樣本點的數值。從公式中可以看出,樣本方差是刻畫樣本數據關于均值的平均偏差平方的一個量,是描述樣本離散趨勢的最常用的統計量。樣本方差越大,表示樣本值偏離樣本平均值的可能性就越大。

(2)樣本標準差(Std. deviation)

由于樣本方差的計算單位是樣本值的平方,將樣本方差開方后可以得到和樣本值相同量的統計量,我們將樣本方差開方后的統計量稱為樣本標準差。樣本標準差和樣本方差一樣,也是度量樣本離散程度的重要統計量。

(3)均值標準誤差(Standard Error of Mean)

即樣本均值的標準差,其數學定義為:

這里,n為樣本容量,σ為總體分布的標準差。均值標準誤差是描述樣本均值和總體均值平均偏差程度的統計量。

(4)極差(Range)

樣本數據中最大值和最小值之差。顯然,在樣本容量相同的情況下,極差大的樣本要比極差小的樣本分散性更大,但極差易受樣本最大值和最小值的影響,沒有體現中間數值的信息,所以穩定性較差。

6.1.3 描述分布形態的統計量

要全面從整體上把握樣本數據的分布,僅僅有集中趨勢和離散趨勢統計量是不夠的,還需要掌握數據分布的形態,例如數據直方圖的對稱性、偏斜程度以及陡緩程度等。關于描述數據的分布形態的統計量,主要有偏度和峰度兩種。

(1)偏度(Skewness)

偏度是描述取值分布形態對稱性的統計量。偏度的數學定義為

這里, ,是樣本3階中心矩,Var為樣本方差。偏度的絕對值越大,表示數據分布的偏斜程度越大,其來自于正態總體的樣本偏度越近似為0。

(2)峰度(Kurtosis)

峰度是描述變量取值分布形態陡緩的統計量。峰度的數學定義為

Kurtosis=μ4/Var 2- 3

這里, ,是樣本4階中心矩,Var為樣本方差。峰度的絕對值越大,表示數據分布的陡峭程度越大,其來自于正態總體的樣本峰度越近似為0。

所以,在非參數假設檢驗中,常利用偏度和峰度的值是否接近于0,來作為檢驗是否是正態分布的重要依據。

主站蜘蛛池模板: 石景山区| 杭州市| 确山县| 卢龙县| 吴川市| 临洮县| 前郭尔| 江川县| 疏附县| 正宁县| 外汇| 武清区| 朝阳区| 昌江| 香港 | 吴江市| 陵川县| 潢川县| 屏边| 汽车| 凉山| 泰来县| 桃源县| 乌海市| 南靖县| 奎屯市| 兴城市| 普陀区| 卓尼县| 浦江县| 襄樊市| 天镇县| 揭西县| 黑河市| 纳雍县| 车致| 永丰县| 嘉黎县| 富裕县| 姜堰市| 肥西县|