- R語言醫學多元統計分析
- 趙軍 戴靜毅編著
- 777字
- 2023-11-29 19:29:20
1.2 多元描述性統計量
對于單個變量,常用的描述性統計量有均值、方差、標準差等。對于多元數據,各個變量之間往往存在相互聯系,它們之間的作用也會相互影響。因此,在分析多元數據時,我們還需要考慮各個變量之間的相互關聯。多元分析中的描述性統計量主要有均值向量、協方差矩陣、相關系數矩陣等。與一元分析類似,多元分析中的統計量也是從樣本計算得到的。
1.2.1 均值向量
樣本的均值向量(means vector)處于樣本數據的“中心”,由各個指標的均值組成。例如,使用函數colMeans()計算表1-2中4項檢測指標的樣本均值向量:
>bio<-cirr[,3:6] >colMeans(bio) FIBlnPTPTAlnCHE 2.4700002.67805679.7777788.133056
1.2.2 協方差矩陣
在一元分析中,用方差描述變量的離散程度;而在多元分析中,除了計算變量自身的方差,還需計算變量之間的協方差。兩個變量和
的樣本協方差計算公式為
(1.1)
其中,為樣本量。當
時,
就是
的方差。
將各指標的方差、協方差用矩陣的形式表示就得到方差-協方差矩陣,簡稱協方差矩陣(covariance matrix)。對于包含個變量的隨機向量,其樣本協方差矩陣可以表示為

顯然,協方差矩陣是一個對稱矩陣。
對于表1-2中的數據,4項檢測指標的樣本協方差矩陣可以用函數var()計算得到:
>var(bio) FIBlnPTPTAlnCHE FIB0.6951200-0.1021371414.3217140.22538286 lnPT-0.10213710.03695325-4.075016-0.06602817 PTA14.3217143-4.07501587530.1777788.43441270 lnCHE0.2253829-0.066028178.4344130.27272468
1.2.3 相關系數矩陣
相關系數常用于描述兩個連續型變量之間的關系,其符號(±)表明相關關系的方向(正相關或負相關),其絕對值的大小反映關系的強弱。兩個變量和
的樣本相關系數計算公式為
(1.2)
其中,為樣本量。相關系數的取值在?1與1之間。
將各個指標之間的相關系數用矩陣的形式表示就得到相關系數矩陣(correlation coefficient matrix)。樣本相關系數矩陣通常用R表示:

與協方差矩陣類似,相關系數矩陣也是一個對稱矩陣。因為變量自身的相關系數為1,所以R的對角線上的元素均為1。
樣本相關系數矩陣可以用函數cor()計算得到,例如:
>cor(bio) FIBlnPTPTAlnCHE FIB1.0000000-0.63727590.74602670.5176411 lnPT-0.63727591.0000000-0.9206450-0.6577195 PTA0.7460267-0.92064501.00000000.7014260 lnCHE0.5176411-0.65771950.70142601.0000000
實際上,如果對每個變量作標準化變換(減去其均值,除以其標準差),那么標準化后的變量的協方差矩陣就等于原變量的相關系數矩陣。標準化可以借助函數scale()實現:
>var(scale(bio)) FIBlnPTPTAlnCHE FIB1.0000000-0.63727590.74602670.5176411 lnPT-0.63727591.0000000-0.9206450-0.6577195 PTA0.7460267-0.92064501.00000000.7014260 lnCHE0.5176411-0.65771950.70142601.0000000
- 數據挖掘原理與實踐
- 云數據中心基礎
- 輕松學大數據挖掘:算法、場景與數據產品
- Libgdx Cross/platform Game Development Cookbook
- MySQL從入門到精通(第3版)
- Learning JavaScriptMVC
- AI時代的數據價值創造:從數據底座到大模型應用落地
- Apache Kylin權威指南
- 實用數據結構
- 信息融合中估計算法的性能評估
- 區塊鏈應用開發指南:業務場景剖析與實戰
- Visual Studio 2012 and .NET 4.5 Expert Development Cookbook
- Kubernetes快速進階與實戰
- Access 2010數據庫應用技術教程(第二版)
- GameMaker Game Programming with GML