- 現代醫學統計學(第2版)
- 方積乾 陸盈主編
- 9910字
- 2019-08-09 14:14:30
第三章 生存變量的預后生物標記物的協變量特異和協變量校正的預測方法
馬昀蓓 1 周曉華 2 KC Gary Chan 2 趙星 3 李曉松 3
1西南財經大學統計學院數量經濟研究所與統計研究中心
2美國華盛頓大學公共衛生學院生物統計系
3四川大學華西公共衛生學院
第一節 前言
在醫學研究尤其是癌癥治療研究中,為避免病人接受不必要的醫療服務,預測一種疾病未來的發生或發展是一個重要任務,而生物標記物往往是預測疾病轉歸的一個較理想的指標。當面對許多潛在的連續性尺度的生物標記物時,經常需要評估和比較它們的預測精度,以確保最好的預測生物標記物被選中。不同于判別精度,當結局變量為二分類時預測精度的結局一般為陽性預測值和陰性預測值(PPV/NPV)。當結局為二分類時,一個連續性尺度生物標記物的PPV曲線的思想類似于ROC曲線,畫出所有受試者中生物標記物的值大于由生物標記物分布的百分位數決定的閾值。這種PPV(NPV)曲線有一個前瞻性的條件概率的解釋,即給定一個陽性(陰性)結果時疾病(非疾病)的概率。與之相對應的ROC曲線的回顧性的解釋。PPV曲線通過畫出不同百分位數下的情形來比較,在不同尺度下的標記物會有相同的定義域(0,1),它允許不同生物標記物的標準化比較。在許多情況下,研究者感興趣評估一個生物標記物在預測事件時間的預后準確性。例如,在多中心艾滋病隊列研究(multicenter AIDS cohort study)中,有Ⅰ型人類免疫缺陷病毒(HIV-1)的人一直被隨訪直到研究終結或死亡,感興趣的是利用基線CD4計數預測死亡時間的準確性。Zheng等 [1]推廣了PPV曲線在衡量生存數據預測準確性中的應用,它可被視為時間依賴的二分類變量,該方法被稱為時依(時間依賴的簡稱)PPV曲線。他們關注于生物標記物在總體中的整體預測準確性,并提出了非參數和參數方法估計生存變量的時依PPV曲線。這種時依PPV曲線的假設是:除了生物標記物沒有其他協變量影響生存結局的分布。但在實踐中生物標記物和生存結局的分布都可能依賴于其他協變量。當有協變量影響生物標記物或生存結局時,這種未修正的時依PPV曲線得出的結果有誤。例如,在多中心艾滋病隊列研究數據研究中,CD4細胞計數的預測精度可能一方面取決于年齡、種族和抗病毒藥物的使用;另一方面個人的CD4計數也可能與他們的年齡和種族有關。首先,當協變量影響生物標記物的觀測值而不影響生存數據的結局時,這種未經修正的時依PPV曲線相對于協變量特異時依PPV(covariate-specific time-dependent PPV curve)曲線是有偏的。其次,當比較生物標記物的預測精度時,使用未經校正的時依PPV曲線可能會導致錯誤的結論,如第4節中圖3-4所示。在這種情況下,PPV曲線的邊際分析需要協變量修正。
本文考慮一個生存結局變量與生物標記物分布的半參數聯合回歸模型,并估計協變量特異時依PPV曲線。對生存結局變量建立一個變系數的Cox模型,并對生物標記物的結局變量建立一個半參數位置轉移模型。盡管協變量特異時依PPV曲線在實踐中有較好的作用,但總體中的整體預測指標在比較不同生物標記物時,或在協變量特異時依PPV曲線不能精確地估計時的小型研究中,是很有用的。為此,本文進一步考慮生物標記物的協變量校正的邊緣化的整體預測精度指標,定義協變量校正時依PPV曲線(covariate-adjusted time-dependent PPVcurve)為協變量特異時依PPV曲線的加權平均。在這種情形下,當協變量影響生物標記物和生存結局變量,或當協變量只影響生物標記物而不影響生存結局變量時,未校正和協變量校正時依PPV曲線是不同的。但當一個生物標記物與協變量獨立時,協變量校正的時依PPV曲線退化為未校正的曲線 [1]。本文其余部分安排如下,第2節提出一個協變量特異PPV曲線來測量生物標記物的條件預測精度,并對生存結局變量利用變系數的Cox模型建模,對生物標記物的分布利用半參數位置模型建模。然后對其提出一個估計方法并推導該估計量的漸近性質。第3節定義一個協變量校正時依PPV曲線,衡量生物標記物的邊際預測精度,提出具體估計方法并推導估計量的漸近性質。第4節與第5節分別給出模擬分析結果和多中心艾滋病隊列研究數據分析的應用結果。漸近性質的具體推導見附錄。
第二節 協變量特異時依PPV曲線
對于死亡或疾病進展等事件, T表示事件時間, Y表示某連續性生物標記物變量, Z 1和 Z 2表示協變量向量,該向量既影響連續性生物標記物 Y,又影響事件時間 T。這里允許 Z 1和 Z 2有共同的元素。用 Fz 1( y)= P{ Y≤ y| Z 1= z 1}表示給定 Z 1= z 1的條件的累積分布函數。協變量特異時依PPV曲線定義為:繪制PPV(v; t, z 1, z 2)= P{ T≤ t| Fz 1( y)≥v, Z 2= z 2}在 Z 1= z 1與 Z 2= z 2時隨 v變化的曲線,其中 v在(0,1)中取值。因為 Y的分布只取決于 Z 1,通過運算可得

(3-1)
其中 S( t| y, z 2)=P{ T﹥ t| Y= y, Z 2= z 2}為給定 Y= y與 Z 2= z 2時的條件分布函數。
一、基于Cox模型的條件生存分布的估計
假設有一樣本量為 n的隨機樣本。 T i和 C i表示第 i個人的事件時間和刪失時間,其中 i=1,…, n。這樣, X i=min( T i, C i)為該個體的觀察時間,Δ i為示性函數,當 X i為事件時間時其值為1,否則為0。此外假設 i=1,…, n時,給定生物標記物與協變量時 T i和 C i條件獨立。在不失一般性下用[0, τ]表示觀察時間,其中 τ為一個常數表示研究結束的時間。
盡管在生存分析中Cox模型是一非常強大的方法,但協變量對事件時間的影響可能不滿足比例風險的假設。協變量對事件時間的影響可能比對數線性效應復雜得多。非參數方法是一個明顯的替代方法,但非參數估計量的收斂速度通常會隨模型維度的增加而急劇減少,這就是所謂的維數災難問題。變系數模型是一個非常有吸引力的有效的替代方法。為此考慮變系數比例風險模型 [2,3,4],該模型考慮了暴露與混雜的非線性互動。假設一重要暴露變量 w為 z 2中一個連續元素。在不失一般性下,用 w和
分別表示 z 2的第一個分量和剩余分量組成的向量。假設風險函數形式如下:


(3-2)
其中 λ 0( t)是一未知基準風險函數,
是 w的函數系數向量。第5部分多中心艾滋病隊列研究數據的例子將用來描述模型(2),病人年齡是該例中的暴露協變量。由模型(2)和
可知



其中
。模型(2)有許多優良的性質,如相比與參數模型有更少的某型假設,扭曲關系的可能性更小,能考慮協變量的交互效應。此外,模型(2)還能考慮生物標記物與協變量之間的交互效應。

觀察到的數據結構為{ X i,Δ i, Y i, Z 1 i, Z 2 i},其中 i=1,…, n.根據Cai [4],當所有觀測值獨立時, θ 0( w), α 0和 ρ 0可以通過局部多項式(線性)擬合,利用剖面部分似然方法進行估計。為估計 S( t| y, z 2),令 N i( t)= I( T i≤ t,Δ i=1), R i( t)= I( X i≥ t)。用
,
和
分別作為 θ 0( w), α 0和 ρ 0的剖面部分似然估計,從而可通過下式估計Λ 0( t)




可得 S( t| y, z 2)的估計量:

這里,對 i=1,…, n, W i為 Z 2 i的第一個元素,
為Z 2i的剩余元素組成的向量。

二、生物標記物的條件分布與協變量特異時依PPV曲線的半參數估計
假設生物標記物服從如下半參數位置模型:

(3-3)
其中 H(·)是一未知分布函數。
分布函數 H( y)可以通過下式估計
,其中
是 γ的估計量。該估計量是通過解下列估計方程而得:



由此可得

由此,代入
(1)式,得到如下協變量特異時依PPV曲線的半參數估計


(3-4)
三、漸近性質
用 Y, z 1和 z 2分別表示 Y, z 1和 z 2支撐。為證明
的漸近性質需證明引理1和引理2。

引理1
當附錄A的條件A.i-A.vi成立時,給定
,作為 y的過程,在 Y上收斂到零均值高斯過程,其協方差見附錄B。

引理2
在估計
和
時,用 h表示選定窗寬,當附錄A的條件A.i-A.vi成立時且( z 2, t)∈ Z 2×[0, τ],當 n→∞時, nh 2→∞且 nh 4→0,那么
是根號 n相合,且
作為 y的過程,在 Y上收斂到某零均值高斯過程,其協方差見附錄B。





引理1與引理2的證明見附錄B
定理1
附錄A的條件A. i-A. vi成立時,對( z 1, z 2, t)∈ Z 1× Z 2×[0, τ]滿足當 n→∞時, nh 2→∞且 nh 4→0,那么

作為 v的過程,在(0,1)上收斂到某零均值高斯過程,協方差為 ν 0 cov{ κ *( ν 1, t, z 1, z 2), κ *( ν 2, t, z 1, z 2)},其中 ν 0=∫ K 2( t) dt,這里 K(·)為某一對稱的密度函數,作為核函數用于
和
的剖面部分似然估計中。


定理1的證明和 κ *( v, t, z 1, z 2)見附錄C
盡管
方差的估計量可以通過delta方法得到,但因方差中存在未知的密度函數,平滑技巧是需要的。在模擬研究中采用bootstrap的方法計算標準誤與置信區間。

第三節 協變量校正時依PPV曲線
雖然協變量特異時依PPV曲線是本文的主要內容,但研究者可能還對生物標記物的總體預測指標感興趣。Zheng [1]為測量總體的預測精度,定義時依PPV曲線為 PPV( ν; t)= P{ T﹤ t| F( y)≥ ν}的圖,其中 F( y)為 Y的累計分布函數。該總體預測指標在比較不同生物標記物時很有價值。雖然Zheng [1]同時考慮了參數與非參數的方法,但忽略了協變量的預測效應,所以他們的方法可能損失效率或產生嚴重偏倚。例如在4.3中的圖5,兩種生物標記物 Y 1和 Y 2有相同的協變量特異時依PPV曲線,但這種未校正的協變量特異時依PPV曲線錯誤地表明 Y 1和 Y 2有不同的預測精度。類似的現象也被Janes與Pepe [5]等在ROC曲線中發現。因此,在比較 Y 1和 Y 2時校正協變量是有必要的。
首先定義協變量校正的總體預測精度。該概念和Janes與Pepe [5]提出的協變量校正的ROC曲線類似。協變量校正時依PPV曲線為 APPV(v;t)=E{ PPV(v;t,Z 1,Z 2)},該式是對 Z= Z 1∪ Z 2取期望。該定義可被解釋為協變量特異時依PPV曲線的加權平均:

(3-5)
其中 F Z ( z )是 Z= Z 1∪ Z 2的聯合累積分布函數。從(3-5)中可發現,當共同的協變量Z只影響生物標記物的值而不影響預測精度,且當 Z 1= Z 2= Z時,協變量校正時依PPV曲線與協變量特異時依PPV曲線一致。另一方面,當 Z 1≠ Z 2協變量校正時依PPV曲線為一加權的協變量特異時依PPV曲線。
協變量校正時依PPV曲線有一些良好的性質,如對 Y和(或) Z進行單調遞增變換時的不變性。注意到Zheng [1]定義的未校正的時依PPV曲線為:

(3-6)
當生物標記物 Y獨立于所有協變量,即對任意
,協變量校正時依PPV曲線(3-5)退化為未校正的時依PPV曲線(3-6)。此外,還值得注意協變量校正時依PPV曲線為
。該曲線與未校正的時依PPV曲線有明顯的不同,其中只有生物標記物取值大于/等于第 v個分位數的受試者被定義為陽性(即 F( y)≥ ν)。


一、參數估計
由(3-4)和(3-5),可通過下面估計量估計協變量校正時依PPV曲線, APPV( v;t)

(3-7)
其中為 Z= Z 1∪ Z 2的累積分布函數 F Z( z)的估計量。如用經驗分布函數來估計 F Z( z),可得 APPV( ν; t)的下列估計量:

(3-8)
二、漸近性質
用 z表示 Z的支撐。 Z= Z 1∪ Z 2的經驗分布函數
有大樣本性質,具體見如下引理3。

引理3
假設 F Z( z)在 z上連續,那么對于任意
收斂于正態分布。并且如果 F Z( z)絕對連續,那么
。


引理3的第一部分源于Neuhaus [6]方程,第二部分可直接由Revesz [7]的定理3得到。
由此根據(3-7),
的漸近性質可直接由定理1與引理3得到。

定理2
假設生存模型滿足(3-2)。當附錄A的條件A.i-A.vi成立時,如 F Z( z)在 Z上絕對連續, H( u)在(-∞,∞)絕對連續,并且當 n→∞時, nh 2→∞且 nh 4→0,那么

作為v的過程,在 Y上收斂于某零均值高斯過程,其協方差為 cov{ ζ *( v 1, t), ζ *( v 2, t)}某零均值高斯過程。
定理2的證明與 ζ i *( v, t)的表達式見附錄C。
注1
值得注意,定理2的推導依賴于 F Z( z)在 Z絕對連續。當 Z為一離散協變量向量時,或 Z的某些成分離散時,仍可用(3-8)估計協變量校正時依PPV曲線。通過模擬實驗,將看到對離散型協變量,該方法在有限樣本下表現仍不錯。
注2
眾所周知,標準Cox模型為變系數Cox模型(2)的特殊情況,并且Cox模型成立時,通過部分似然的方法,可得 S( t| y, z 2)的
相合估計量 [8],由此可得 PPV( v; t, z 1, z 2)的
相合估計量。另一方面,由定理2,在比例風險模型中假設一個變系數結構不會降低協變量校正時依PPV曲線 APPV( ν; t)的收斂速度。


第四節 模擬研究
本節將報告模擬研究的結果,模擬研究的目的為評價協變量校正時依PPV曲線與協變量特異時依PPV曲線的表現,每個情況的模擬次數為200。
一、協變量特異時依PPV曲線的模擬研究
首先采用數值模擬的方法,評價當生存結局變量滿足變系數Cox模型時,協變量特異時依PPV曲線估計量在有限樣本情況的表現。在該模擬中,失效時間按照如下變系數風險函數生成, λ( t| Y, W, Z 2)= λ 0( t)exp{ α 0 Y+ θ 10( W) Z 1+ θ 20( W) Z 2},其中 λ 0( t)≡0.1, θ 10( W)= W,且 θ 20( W)= W 2, W是[0,1]均勻分布的隨機變量。協變量 Z 1是均數為1/2的指數分布的隨機變量,協變量 Z 2是標準正態分布的隨機變量,結局變量 Y是均數為 Z 1、方差為0.25的條件正態分布隨機變量。刪失分布是[ c/2,3 c/2]上的均勻分布,其中c為控制刪失率的常數。這里取c=12.5,對應于大概20%的刪失。樣本量 n=200時,畫出在 t=2時 Z 1=1, Z 2=0.25和W=0.5的協變量特異時依PPV曲線。在 v=0.1,0.3,0.5,0.7,0.9,通過200個bootstrap樣本來計算其logit標準誤(SEs)和95%的置信區間,具體公式為:

最優窗寬
是通過Fan和Huang [9]的方法計算獲得的。為檢查基于bootstrap的標準誤計算方法的準確性,將其與經驗標準差(SDs)進行比較,結果見圖3-1與表3-1。估計的PPV曲線較好的捕獲了真實曲線的形式,僅表現出可忽略的偏倚。估計的標準誤與經驗標準差非常接近,并且95%置信區間的覆蓋率也非常接近名義水平。所有的結果都表明新提出的協變量特異時依PPV曲線的估計量表現好。


圖3-1 t=2時協變量特異時依PPV曲線
實線與虛線分別代表真實的與估計的時依PPV曲線,點狀線表示估計時依PPV曲線的95%置信區間
表3-1 協變量特異時依PPV曲線的模擬結果(20%刪失率)

二、協變量校正時依PPV曲線的模擬研究
為評價協變量校正時依PPV曲線估計量在有限樣本情況的表現,進行如下模擬實驗。
按照如下風險函數生成失效時間 λ( t| Y, Z 1, Z 2)= λ 0( t)exp{ α 0 Y+ β 0( W) Z 2+ ρ 0 YZ 2},其中真實回歸系數分別是 α 0=1, β 0( W)= W 2, ρ 0=-1。這里 W是[0,1]上均勻分布的隨機變量。首先考慮連續性協變量,協變量 Z 1是標準正態分布的隨機變量,協變量 Z 2是均數為1/5的指數分布的隨機變量,結局變量Y是均數為 Z 1、方差為0.25的條件正態分布的隨機變量。刪失分布是[ c/2,3 c/2]的均勻分布,這里取c=22對應于大概30%的刪失。畫出在t=1時的協變量特異時依PPV曲線及其置信區間,其中置信區間的計算采用的是4.1的logit變換。 ν=0.1,0.3,0.5,0.7,0.9時估計的APPV曲線,還將像4.1一樣,計算其標準差,標準誤和95%置信區間的覆蓋率。樣本量為 n=100時的結果見圖3-2與表3-2。

圖3-2 t=1連續性協變量的協變量校正時依PPV曲線
實線與虛線分別代表真實的與估計的協變量校正時依PPV曲線,兩條點狀線表示估計校正PPV曲線的95%置信區間
表3-2 連續協變量時協變量校正時依PPV曲線的模擬結果(30%刪失率)

除了連續性協變量,還考慮離散協變量的情況, Z 1和 Z 2分別是參數 λ=1的泊松分布與參數 P=0.6的二項分布的隨機變量。此時取c=12.5,對應約30%的結尾率,結果見圖3-3與表3-3。

圖3-3 t=1時離散協變量的協變量校正時依PPV曲線
實線與虛線分別代表真實的與估計的協變量校正時依PPV曲線,兩條點狀線表示估計校正PPV曲線的95%置信區間
表3-3 連續協變量時依變量校正時依PPV曲線的模擬結果(30%刪失率)

從表3-3與圖3-3可以發現,不論協變量為何形式,提出的方法均能較好捕獲了真實APPV曲線的形式。估計的SEs與SDs非常接近,并且95%的協變量特異時依PPV曲線的估計量表現好。
三、與協變量校正時依PPV曲線的比較
為比較提出的協變量校正時依PPV(APPV)曲線與未協變量校正時依PPV曲線,這部分將分別考慮需要校正協變量和不需要校正協變量兩種情況的結果。
情況1,需校正協變量。 Y 1和 Y 2為兩種生物標記物,其中 Y 1受二分類變量 Z的影響,而 Y 2不受其影響。這里 P( Z=1)=0.6, P( Z=0)=0.4。 Y 1是均數為2 Z、方差為1的正態分布的隨機變量, Y 2標準正態分布的隨機變量。這里 Y 1和 Y 2由于有相同的整體預測準確性,所以他們有相同的協變量特異的預測精度。
圖3-4中可發現,在評價生物標記物時不校正協變量將導致錯誤結論。



圖3-4 (A) Z=0和 Z=1時 Y 1的密度函數;(B)聯合數據中 Y 1和 Y 2的密度函數;(C) Y 1和 Y 2的協變量校正時依PPV曲線(APPV)與未校正的時依PPV曲線
情況2,APPV=PPV,對于連續協變量比較本文的方法與Zheng [1]的非參數方法, Z 1和 Z 2分別為標準正態分布與均數為1/5的指數分布的隨機變量。生物標記物 Y為標準正態分布的隨機變量。生存與刪失數據的生成方法與4.2一致。這里,協變量校正時依PPV曲線退化為未校正的時依PPV曲線。該情況通過兩種方法估計。這里刪失率在27%左右,樣本量為 n=100且 v=0.1,0.3,0.5,0.7,0.9,估計值的計算和標準差,標準誤和95%置信區間的覆蓋率均像4.1一樣計算,結果見圖3-5和表3-4。

圖3-5 t=1時連續協變量的協變量校正時依PPV曲線
實線與虛線分別代表真實的與估計的協變量校正時依PPV曲線,兩條點狀線為Zheng方法估計的未校正的PPV曲線
表3-4 連續協變量協變量校正時依PPV曲線與非參數未校正的PPV曲線的模擬結果(27%刪失率)

圖3-5和表3-4中可發現,當除了生物標記物外,還有一些協變量影響生存結局時,非參數未校正的方法比本文提出的方法差。
注3
4.2和4.3報告了APPV曲線在單變量 Z 1與 Z 2時的表現。此外還能模擬APPV曲線在高維協變量的結果,其中 Z 1為3維協變量且 Z 2為7維協變量,結果顯示估計的APPV依舊表現良好。因篇幅所限,略去詳細結果。
第五節 多中心艾滋病隊列研究
多中心艾滋病隊列研究是對HIV-1感染同性戀與雙性戀男性進行的自然史與感染史前瞻性研究。總共有6972個人參與到此隊列中。公開的數據包括從1996年開始前兩次進入隊列的人員。在總共5622人中,基線中有2195名為HIV陽性。研究的目的為考察CD4細胞預測HIV感染者中死亡的時間。時依PPV曲線是通過圖形化的方法來達到此目的,但可能某些因素能影響CD4細胞水平的預測準確性,所以需要校正這些因素的影響。Y表示每立方毫米中CD4細胞數目的倒數,因為HIV感染會減少CD4受體的T細胞的數量,所以較大 Y表明較高的死亡風險。 W表示個體的年齡, Z 2為治療的指示變量,個體在死亡前或1996年9月前接受過抗病毒藥物時其值為1,否則為0。而 Z 1=( Z 11, Z 12, Z 13, Z 14, Z 15) T為影響CD4水平的協變量,其中 Z 11為年齡, Z 12為種族(白人取值為1,否則為0), Z 13為種族(黑人取值為1,否則為0), Z 14為種族(印第安人或阿拉斯加人取值為1,否則為0), Z 13為種族(亞太人取值為1,否則為0)。首先計算 T=7年的協變量特異時依PPV曲線,并比較 T=4和 T=6時的協變量校正時依PPV曲線與未校正時依PPV曲線。具體結果見圖3-6。




圖3-6 生存時間 T=7年時的估計的協變量特異時依PPV曲線
圖(A)35歲且接受過抗病毒藥物的人;圖(B)接受過抗病毒藥物的黑人;圖(C)為25歲的黑人;圖(D)55歲的黑人
圖3-6(A)可發現,HIV感染者中的白人、黑人和亞太人,抗病毒藥物對白人效果最好。圖3-6(B)可發現,不同年齡中CD4細胞計數的預測精度相似。圖3-6(C)、3-6(D)可發現,抗病毒藥物對黑人感染者有很大的效果,尤其當其CD4細胞計數高時。圖3-7可發現,CD4細胞能預測HIV感染者的死亡時間,且協變量校正時依PPV曲線與未校正時依PPV曲線差別很大,所以校正協變量顯得很有必要。

圖3-7 T=4,6年時估計的協變量校正與未校正的時依PPV曲線
第六節 討論
本文關注的問題為生物標記物的預測能力,而不是一般生存模型中的事件的危險因素。
提出了一種新的半參數方法來評價生物標記物預測事件發生時間的能力。該方法考慮了協變量的效應,可以估計協變量特異與協變量校正總體時依曲線。該方法與已有方法相比有三種改進。第一,在評價生物標記物預測事件時間時,可以評價協變量效應。第二,當生物標記物或生存結局變量受協變量影響時,比已有方法更好地比較與評價總體的預測能力。第三,通過在生存模型中加入一個函數型的系數,本文方法限制更小并能考慮某些協變量為另外協變量的函數。該新方法的有效性依賴于兩個半參數回歸模型、生存時間與生物標記物的分布。后續研究方向包括發展評價擬合優度的統計方法與評價多個生物標記物預測精度的方法。
致謝
本文部分工作受國家自然科學基金(No. 30728019)和美國聯邦政府退伍軍人事務部基金(No. EPID-006-07F)資助。
附錄
A.1:正則條件
首先給一些概念。 W為 W的支撐,任意 w∈ W,令
。對 i=1,…, n,令
且
對 k=0,1,2,定義





其中 K h( w)= K( w/ h)/ h。這里對 k=0,1,2,
=1, a, aa T。

給定以下條件以證明引理1,引理2,定理1和定理2。
(A.i)失效時間 T和刪失時間 C在給定 Z 1和 Z 2時獨立。
(A.ii)

(A.iii) W的密度函數在緊支撐 W的二階導數有界。函數 θ( w)絕對連續且在 W有連續二階導數。
(A.iv)任意 w∈ W,

正定; EQ 0( η 0( w), s)和
均大于等于一個大于0的數。

(A.v)當 t在[0, τ]上,( y, z 2)∈ Y× Z 2, S( t| y, z 2)絕對連續。
(A.vi)當 u∈(-∞,∞),函數 H( u)及其一階二階導數 H′( u)和 H″( u)均有界。
A.2:引理1和引理2的證明
引理1的證明。注意到半參數位置模型等價于以下轉換模型:

其中 ∈的分布為 H(·)。當條件(A.iii)和(A.vi)成立時,估計量
相合且滿足以下漸近正態


(3-9)
其中Γ=
。令
,因為



由函數型中心極限定理,可證明
在( y, γ)∈ Y× N( γ 0)上收斂到某零均值高斯過程。由于上述過程的等度連續性和
的相合性,有



所以又有

(3-10)
在 y∈ Y上一致成立。根據泰勒展開,(10)右邊的第二項可以展開為

在 Y上一致成立。再加上(9)可得

這里

所以,
收斂于某零均值高斯過程且協方差為 Cov{ ξ 1( γ 0, y 1, z 1, Z 1 i, Y i), ξ 1( γ 0, y 2, x 1, Z 1 i, Y i)}。

引理2的證明。已知
有相合性。首先證明
是
相合的。根據Cai [4],可找到零均值獨立同分布隨機向量
,對于每個 W j, j=1,…, n





(3-11)
所以有

其中
。聯合(11)右邊的第二項可得


這樣,如果當 n→∞時有 nh 2→∞和 nh 4→0,那么對任意
0。而且,根據Cai [4],在(0, τ]上,
依概率收斂到Λ 0( t)。


下面證明
的漸近正態性。注意到


(3-12)
這里, E[ ξ 4( η 0( w), y, z 2, Z 2 i, Y i, t)]=0。所以
收斂到某零均值高斯過程且協方差為 ν 0 Cov{ ξ 4( η 0( w), y 1, z 2, Z 2 i, Y i, t), ξ 4( η 0( w), y 2, z 2, Z 2 i, Y i, t)}。

A.3:定理1-2的證明
定理1的證明。注意



(3-13)
其中
。所以定理1成立。

定理2的證明。通過代數運算,可得:

(3-14)
注意到因為 θ( w)絕對連續且在 W有連續二階導數,可證明
。這樣,通過引理3可證明(14)的右式第二項依概率收斂于0。根據定理1,有



其中
。所以定理2成立。

參考文獻
1.Zheng Y,Cai T,Pepe M,et al. Time-dependent predictive values of prognostic biomarkers with failure time outcome. Journal of American Statistical Association,2008,103:362-368.
2.Fan J,Lin H,Zhou Y. Local partial likelihood estimation for life time data. The Annals of Statistics,2006,34:290-325.
3.Cai J,Fan J,Zhou H,et al. Hazard models with varying coefficients for multivariate failure time data. The Annals of Statistics,2007,35:324-354.
4.Cai J,Fan J,Jiang J,et al. Partially linear hazard regression with varying-coefficients multivariate survival data. Journal of the Royal Statistical Society,Series B,2008,70:141-158.
5.Janes H,Pepe M. Adjusted for covariates in studies of diagnostic,Screening,or prognostic markers:an old concept in a new setting. American Journal of Epidemiology,2009,168:89-97.
6.Neuhaus G..On weak convergence of stochastic processes with multidimensional time parameter. The Annals of Mathematical Statistics,1971,42:1285-1295.
7.Revesz P. On strong approximation of the multidimensional empirical process. The Annals of Probability,1976,4:729-743.
8.Andersen P. K,Gill R. D. Cox’s regression model for counting processes:A large sample study. The Annals of Statistics,1982,10:1100-1120.
9.Fan J,Huang T. Profile likelihood inferences on semiparametric varying-coefficient partially linear models. Bernoulli,2005,11:1031-1057.
主要作者簡介
周曉華博士,現為美國華盛頓大學公共衛生學院生物統計系教授,美國聯邦政府退伍軍人事務部西雅圖醫療中心生物統計研究室主任。1984年獲四川大學數學學士學位,1991年獲俄亥俄州立大學生物統計學博士學位。1991—1993年在哈佛大學做生物統計學博士后工作。1998年當選為國際統計學會推選會員,2004年當選為美國統計協會資深會員,并任流行病統計分會主席,美國統計學會衛生政策統計分會主席。周曉華博士現任美國統計學會精神健康統計分會主席,美國聯邦政府退伍軍人事務部統計學家協會主席,世界中醫藥學會聯合會臨床療效評價專業委員會副會長,國際生物統計學會中國分會理事長以及美國聯邦政府食品和藥物管理局(FDA)醫療器械和放射健康顧問委員會成員。2001年他與Hirano,Imbens和Rubin教授一起,獲得Bayes分析國際組織與ASA的Bayes統計學組的Mitchell獎,2007年被美國聯邦政府退伍軍人事務部授予研究生涯科學家獎(Career Scientist Award)的榮譽稱號。他曾是期刊Statistical Sinica,Biometrics副主編,目前是Statistics in Medicine副主編。周曉華博士的研究主要集中于醫學檢驗、衛生服務研究以及因果推理分析領域,已在國際審查期刊上出版了190篇SCI文章。2002年他與另外兩名學者合作完成了診斷醫學方面第一本綜合性統計著作“Statistical Methods in Diagnostic Medicine”,該書第二版已于2012年出版。
馬昀蓓博士,現為西南財經大學統計學院數量經濟研究所與統計研究中心助理教授。2006年獲北京工業大學統計學碩士學位、2009年獲中科院統計學博士學位。曾在華盛頓大學生物統計系、普林斯頓大學運籌與金融工程系做博士后研究。她是一名年輕的統計學者,有著統計學碩士和博士課程教學經歷,在西南財經大學為統計學碩士和博士開設學位課程,也給本科生講授計量經濟學。研究興趣主要為高維稀疏模型、非參數與半參數建模、個體化醫學和生存分析。已獲國家自然科學基金資助。
李曉松博士,現為四川大學華西公共衛生學院院長兼華西第四醫院院長、教授、博士生導師、國家杰出青年科學基金獲得者、英國皇家統計學會資深會員。畢業于重慶醫科大學、中國協和醫科大學和華西醫科大學,分獲醫學學士、碩士和博士學位。任中國衛生統計學會醫學統計學教育專業委員會副主委、中華預防醫學會委員,負責國家自然科學基金項目、教育部科學技術研究重點項目以及WHO、UNICEF等項目;在生物統計學國際頂級學術期刊發表論文多篇。