官术网_书友最值得收藏!

1.1 多元數據

醫學多元統計分析中的“多元”一般是指研究的結局指標(因變量)有多個。在大多數醫學研究中,對每個研究對象的觀測結果往往不止一個,需要用很多個反應變量來表示。例如,血脂記錄有膽固醇、甘油三酯、磷脂、非酯化脂肪酸等指標;研究兒童的生長發育通常需要測量身高、體重、胸圍、肺活量等指標。這種有多個反應變量的數據稱為多變量數據,也稱多元數據(multivariate data)。多元數據通常可以表示成表1-1中的表格形式。

表1-1 多元數據的表格形式

將表1-1中的數據用一個nm列的矩陣來表達,就是一個多元數據矩陣。

這個矩陣可簡寫成

例如,表1-2是36例肝硬化患者的部分資料,包括性別、年齡組和4項臨床檢測指標。其中,臨床檢測指標包括纖維蛋白原(FIB,g/dL)、凝血酶原時間(PT,s)、凝血酶原活動度(PTA,%)、血清膽堿酯酶(CHE,U/L)。為使變量服從正態分布,對PT和CHE取了自然對數。

表1-2 36例肝硬化患者的部分資料

讀入表1-2中的數據并查看變量的類型:

>cirr<-read.csv('cirrhosis.csv')
>str(cirr)
'data.frame':36obs.of6variables:
$sex:chr"male""male""female""male"...
$agegrp:chr"<40""40-59""40-59""40-59"...
$FIB:num2.83.022.452.593.522.52.493.392.353...
$lnPT:num2.532.572.572.572.662.512.622.563.032.61...
$PTA:int110103101818580891044492...
$lnCHE:num8.768.378.027.438.298.528.238.757.538.13...

R4.0.0版本以后,函數read.csv()的參數stringsAsFactors默認為FALSE,因此上面讀入的兩個變量sex和agegrp為字符型。下面使用函數factor()將它們轉化為因子(factor)型:

>cirr$sex<-factor(cirr$sex)
>cirr$agegrp<-factor(cirr$agegrp)
>str(cirr)
'data.frame':36obs.of6variables:
$sex:Factorw/2levels"female","male":2212221222...
$agegrp:Factorw/3levels"<40","40-59",..:1222222122...
$FIB:num2.83.022.452.593.522.52.493.392.353...
$lnPT:num2.532.572.572.572.662.512.622.563.032.61...
$PTA:int110103101818580891044492...
$lnCHE:num8.768.378.027.438.298.528.238.757.538.13...
主站蜘蛛池模板: 吉木乃县| 东乡县| 花垣县| 上饶县| 河东区| 赫章县| 进贤县| 左贡县| 天气| 黑水县| 贵南县| 潮州市| 贵南县| 牟定县| 威远县| 沙田区| 红桥区| 体育| 临泽县| 罗平县| 阳西县| 扎囊县| 新泰市| 娱乐| 六枝特区| 曲麻莱县| 梅河口市| 乌恰县| 琼结县| 微山县| 武汉市| 开鲁县| 思茅市| 南陵县| 镇平县| 科尔| 德昌县| 盈江县| 普陀区| 且末县| 清远市|