- R語言醫學多元統計分析
- 趙軍 戴靜毅編著
- 406字
- 2023-11-29 19:29:20
1.1 多元數據
醫學多元統計分析中的“多元”一般是指研究的結局指標(因變量)有多個。在大多數醫學研究中,對每個研究對象的觀測結果往往不止一個,需要用很多個反應變量來表示。例如,血脂記錄有膽固醇、甘油三酯、磷脂、非酯化脂肪酸等指標;研究兒童的生長發育通常需要測量身高、體重、胸圍、肺活量等指標。這種有多個反應變量的數據稱為多變量數據,也稱多元數據(multivariate data)。多元數據通常可以表示成表1-1中的表格形式。
表1-1 多元數據的表格形式

將表1-1中的數據用一個n行m列的矩陣來表達,就是一個多元數據矩陣。

這個矩陣可簡寫成。
例如,表1-2是36例肝硬化患者的部分資料,包括性別、年齡組和4項臨床檢測指標。其中,臨床檢測指標包括纖維蛋白原(FIB,g/dL)、凝血酶原時間(PT,s)、凝血酶原活動度(PTA,%)、血清膽堿酯酶(CHE,U/L)。為使變量服從正態分布,對PT和CHE取了自然對數。
表1-2 36例肝硬化患者的部分資料



讀入表1-2中的數據并查看變量的類型:
>cirr<-read.csv('cirrhosis.csv') >str(cirr) 'data.frame':36obs.of6variables: $sex:chr"male""male""female""male"... $agegrp:chr"<40""40-59""40-59""40-59"... $FIB:num2.83.022.452.593.522.52.493.392.353... $lnPT:num2.532.572.572.572.662.512.622.563.032.61... $PTA:int110103101818580891044492... $lnCHE:num8.768.378.027.438.298.528.238.757.538.13...
R4.0.0版本以后,函數read.csv()的參數stringsAsFactors默認為FALSE,因此上面讀入的兩個變量sex和agegrp為字符型。下面使用函數factor()將它們轉化為因子(factor)型:
>cirr$sex<-factor(cirr$sex) >cirr$agegrp<-factor(cirr$agegrp) >str(cirr) 'data.frame':36obs.of6variables: $sex:Factorw/2levels"female","male":2212221222... $agegrp:Factorw/3levels"<40","40-59",..:1222222122... $FIB:num2.83.022.452.593.522.52.493.392.353... $lnPT:num2.532.572.572.572.662.512.622.563.032.61... $PTA:int110103101818580891044492... $lnCHE:num8.768.378.027.438.298.528.238.757.538.13...