官术网_书友最值得收藏!

1.2 多元描述性統計量

對于單個變量,常用的描述性統計量有均值、方差、標準差等。對于多元數據,各個變量之間往往存在相互聯系,它們之間的作用也會相互影響。因此,在分析多元數據時,我們還需要考慮各個變量之間的相互關聯。多元分析中的描述性統計量主要有均值向量、協方差矩陣、相關系數矩陣等。與一元分析類似,多元分析中的統計量也是從樣本計算得到的。

1.2.1 均值向量

樣本的均值向量(means vector)處于樣本數據的“中心”,由各個指標的均值組成。例如,使用函數colMeans()計算表1-2中4項檢測指標的樣本均值向量:

>bio<-cirr[,3:6]
>colMeans(bio)
FIBlnPTPTAlnCHE
2.4700002.67805679.7777788.133056

1.2.2 協方差矩陣

在一元分析中,用方差描述變量的離散程度;而在多元分析中,除了計算變量自身的方差,還需計算變量之間的協方差。兩個變量的樣本協方差計算公式為

(1.1)

其中,為樣本量。當時,就是的方差。

將各指標的方差、協方差用矩陣的形式表示就得到方差-協方差矩陣,簡稱協方差矩陣(covariance matrix)。對于包含個變量的隨機向量,其樣本協方差矩陣可以表示為

顯然,協方差矩陣是一個對稱矩陣。

對于表1-2中的數據,4項檢測指標的樣本協方差矩陣可以用函數var()計算得到:

>var(bio)
FIBlnPTPTAlnCHE
FIB0.6951200-0.1021371414.3217140.22538286
lnPT-0.10213710.03695325-4.075016-0.06602817
PTA14.3217143-4.07501587530.1777788.43441270
lnCHE0.2253829-0.066028178.4344130.27272468

1.2.3 相關系數矩陣

相關系數常用于描述兩個連續型變量之間的關系,其符號(±)表明相關關系的方向(正相關或負相關),其絕對值的大小反映關系的強弱。兩個變量的樣本相關系數計算公式為

(1.2)

其中,為樣本量。相關系數的取值在?1與1之間。

將各個指標之間的相關系數用矩陣的形式表示就得到相關系數矩陣(correlation coefficient matrix)。樣本相關系數矩陣通常用R表示:

與協方差矩陣類似,相關系數矩陣也是一個對稱矩陣。因為變量自身的相關系數為1,所以R的對角線上的元素均為1。

樣本相關系數矩陣可以用函數cor()計算得到,例如:

>cor(bio)
FIBlnPTPTAlnCHE
FIB1.0000000-0.63727590.74602670.5176411
lnPT-0.63727591.0000000-0.9206450-0.6577195
PTA0.7460267-0.92064501.00000000.7014260
lnCHE0.5176411-0.65771950.70142601.0000000

實際上,如果對每個變量作標準化變換(減去其均值,除以其標準差),那么標準化后的變量的協方差矩陣就等于原變量的相關系數矩陣。標準化可以借助函數scale()實現:

>var(scale(bio))
FIBlnPTPTAlnCHE
FIB1.0000000-0.63727590.74602670.5176411
lnPT-0.63727591.0000000-0.9206450-0.6577195
PTA0.7460267-0.92064501.00000000.7014260
lnCHE0.5176411-0.65771950.70142601.0000000
主站蜘蛛池模板: 清水县| 沾益县| 古蔺县| 定远县| 遂溪县| 子洲县| 新竹县| 黄陵县| 彭阳县| 甘洛县| 三亚市| 龙山县| 应城市| 建宁县| 巩留县| 信宜市| 化德县| 巩义市| 天气| 广昌县| 临猗县| 祁阳县| 海淀区| 黎川县| 万安县| 沾益县| 收藏| 新野县| 咸阳市| 霍山县| 诸城市| 内黄县| 白河县| 南皮县| 普兰店市| 施秉县| 青海省| 清流县| 博白县| 大庆市| 瓦房店市|