- 現代醫學統計學(第2版)
- 方積乾 陸盈主編
- 11533字
- 2019-08-09 14:14:31
第四章 個體化治療的統計學方法
田魯 1 趙曉光 2 陳新林 3
1美國斯坦福大學
2西安醫科大學
3廣州中醫藥大學
第一節 簡介
近年來,正如普通的臨床實踐,個體化治療引起了許多人的興趣。個體化治療的基本概念:根據病人的基因、臨床條件和其他個體特征來制定特定的治療方案,以提高病人的療效和安全性(Arnedos et al. [1];Ziegler et al. [2];Jungic et al. [3])。其實個體化治療理念并不新穎,從某種程度上說,大部分臨床決策都是基于個體的。然而,最近大量組學信息的應用使我們能夠精細刻畫個體特征,并將個體化治療真正落實到“個體化”的臨床決策(Fernald et al. [4])。例如,人類基因組計劃的完成和基因檢測成本的不斷降低,讓醫生可用病人的基因信息預測病人將來的發病風險或治療效果。個體化治療在疾病預防、診斷和治療方面有著巨大的潛力。例如,基因測試用于指導華法林劑量的選擇(Gage et al. [5];Lenzini et al. [6])。個體化治療臨床研究帶來的統計學問題主要集中在:如何為個體化治療策略(如基于觀察數據)的建立和評估提供有效的工具。不同的臨床問題需要不同的統計方法。個體化治療通常有兩個目的:①構建個體化風險分層系統,用于指導病人選擇合適的預防和治療策略;②建立個體化療效的評估方法,用于篩選治療中受益的亞組病人。我們將討論和回顧近年來這兩種研究方面統計方法的發展。
第二節 個體化治療的風險預測
在疾病預防中,準確地確定高危人群和實施相應的特殊干預具有非常重要的意義。因此,對疾病的未來風險進行準確預測至關重要。例如,阿司匹林能有效降低心血管疾病的患病風險,但是考慮到成本及包括胃腸道潰瘍和胃出血等潛在的副作用,所有病人都使用這個藥就并不合適。另一方面,如果病人十年內患心血管疾病的風險較高(如高于10%),服用阿司匹林給病人帶來的好處比潛在風險大,則病人應該服用阿司匹林。為了實施這個預防策略,臨床醫師需要運用各種信息來評估病人十年內患心血管疾病的風險(Lloyd-Jones [7])。在統計學中這是一個典型的回歸分析問題。一般來說,回歸分析通過估計模型中的未知參數來刻畫自變量(暴露因素)和因變量(結局)之間的關系(Draper and Smith [8])。因此,基于觀察數據的對模型假設有效性的檢驗非常重要。可是這里,我們研究的主要目的是基于回歸模型來準確預測結果。因此,不必假定回歸模型是正確的,評估和選擇回歸模型的主要標準在于它們的預測性能(Tian et al. [9])。
接下來我們將描述建立和評價生存結局的預測模型的一般步驟。假設 T和 X分別表示病人的生存時間和協變量向量。生存時間是右刪失資料,不能完全被觀察到。假設存在獨立的刪失時間 C(Fleming and Harrington [10]),我們只觀察到{ U=min( T, C),Δ= I( T≤ C)},其中 I(·)是指示函數。由于生存時間是右刪失資料,在沒有非常特殊限制的模型假設下,難以估計生存時間 T的完全分布。因此,人們難于預測生存時間 T。實際上,我們可能更加關注 Y( T轉換的新變量),如果其分布是可估計的。例如,用 Y= I( T≥ t)表示 t時點的生存狀況。使用 Y,我們可以通過建立條件期望模型 μ( x)= E( Y| X= x)來預測結果。
一、個體化風險預測的模型建立
假設有 n個獨立、同分布的觀察值{( U i,Δ i, X i), i=1,… n},我們的目標是建立一個提供預測的回歸模型。當 X是單維的,且函數形式沒有具體假設的情況下,可用平滑非參數法來預測 μ( x)。但是,當 X的維數大于1時,由于多維性,不能使用平滑非參數法。因此我們必須對 μ(·)增加一定的附加假設。比如,一個簡單的模型:
,其中 g(·)為給定的單調函數,包括截距的向量 W( x)是原協變量向量 X的函數, β是感興趣的未知參數。 β可以用逆概率加權估計方程(inverse probability weighted estimating equation)的根
來估計。加權估計方程表示為



(4-1)
其中
是刪失分布的Kaplan-Meier估計值, W i= W( X i)。權重
用于校正右刪失造成的偏倚(Zhao and Tsiatis [11])。一旦獲得 β′,我們可通過公式
預測病人的最終結局。這種簡單方法最吸引人之處是,在弱正則條件下,甚至當模型(4-1)不成立時,只要 n→∞, β′仍然收斂于常數向量 β 0(Tian et al. [9])。這意味著增加樣本量能穩定預測規則。此外,最終收斂的預測規則并不依賴于刪失分布。



評論
我們也可以使用其他常用的回歸模型。如對右刪失資料的分析可采用半參數比例風險模型(Cox [12])或加速失效時間模型(accelerated failure time model)(Buckley and James [13];Wei [14]),根據擬合的模型推導出與 Y相對應的預測規則(Lin et al. [15];Park and Wei [16])。但是當違反模型假設時,這些規則通常依賴于刪失分布(Lin and Wei [17];Xu and O’Quigley [18])。
二、個體化治療風險預測的模型評估
不同的工作模型能夠得到多種預測規則,因此選擇最佳預測規則或回歸模型至關重要。對于典型的回歸分析,評估模型的常用方法是建立擬合優度檢驗統計量,推導出統計量的分布情況。并且進一步進行統計檢驗,確定模型誤設的 p值(Fan and Huang [19];Lin et al. [20])。但是,我們的目的不是對特定的模型假設進行檢驗,我們的目標是為將來的病人提供預測,評估一個模型最好要估計預測規則在目標人群中的預測誤差。為此,需要確定一個反映預測值與真實值之間偏差的損失函數,并且要求損失函數具有臨床研究中的直觀解釋。例如,我們可以使用絕對預測誤差的期望
來度量預測規則的準確性(Tian et al. [9])。它可退化為二分類變量的錯誤分類率。根據觀測值,期望損失的估計值可表示為:


然而,眾所周知,由于同一數據用于推導和評估預測規則,這類“表觀誤差”的估計值可能會發生偏倚(低估)(Stone [21];Geisser [22])。評估絕對預測誤差更可靠的方法是使用交叉驗證方法(Efron and Tibshirani [23];Efron [24])。我們把數據集隨機分成 K個不相交的,大小類似的子集,記為{Γ k, k=1,…, K}。對每個 k,我們使用不在Γ k數據集的所有觀測值來獲得對 X= x個體的預測規則
,并使用
來估計總的絕對預測誤差。絕對預測誤差的最終估計值為
。平均絕對預測誤差的估計值可用來評估預測規則的性能。



面對眾多的預測規則,我們通常選擇最小交叉驗證估計值的規則。但是實際研究中,當兩個預測誤差間的差別小到沒有臨床意義時,人們更傾向于選擇簡單的預測規則。一旦我們根據可解釋性和預測誤差的估計選擇了較佳的預測規則或工作模式,便可以使用整個數據集求解最終的預測規則,并將其用于未來的預測。
三、個體化治療風險預測中生物標志物的附加價值
新生物標志物的額外測定(價格昂貴且有侵害性)是否能夠提高原有預測規則的性能,人們常常對此有不一致的意見(Ridker et al. [25];Ridker [26];Uno et al. [27])。傳統上這個問題可以通過擬合包括新舊生物標志物等協變量的多重回歸模型,并檢測新生物標志物與臨床結局之間校正后的關系是否存在統計學意義來解決(Ridker et al. [25])。但是除了回歸模型的有效性會有疑問外,單獨的統計學意義也并不能說明新生物標志物在臨床應用中增加的實際價值。人們可以使用上面提到的方法,根據舊生物標志物或根據新舊生物標志物的預測規則,分別估計其平均絕對預測誤差。我們定義舊、新預測規則的估計預測誤差分別為
和
,新生物標志物在估計預測誤差中的價值則表示為
(Tian et al. [9];Uno et al. [28])。我們可以求解
的95%置信區間(95% CI)。這個方法可以檢驗新生物標志物在預測中起到的作用,便于決策者判斷生物標志物的“價值”。




有時,只需要對亞組(部分)人群開展新生物標志物的測量。為了確定合適的亞組人群,應該對不同的亞組人群分別估計新舊預測規則之間預測誤差的差異(Tian et al. [29])。例如,可對
的病人運用交叉驗證程序來估計


其中
和
分別表示舊預測規則和新預測規則的預測值。通過檢測 G( s)函數,我們可以挑選出從新生物標志物的測量中獲益最多的亞組病人。


四、個體化風險預測評分系統的統計推斷
最終的預測規則可以為每個病人產生一個預測結果,也就是一個評分系統。這種評分系統主要用于個體化的風險預測和利用基線信息確定高風險或低風險的病人。下一步我們需要對已建立的評分和未來結局之間的“真實”聯系做統計推斷(Cai et al. [30];Li et al. [31])。從一系列備選規則中選擇最終的預測規則后,我們需要使用新數據(和選擇、構建評分系統的數據無重疊)開展“誠實的”推斷。新數據最好來自一個獨立的研究。或者把一個大數據集分成訓練集(training set)和驗證集(holdout set),訓練集用于建立評分系統(包括通過交叉驗證程序進行模型選擇),驗證集則專門用于評分系統的統計推斷。評分是單維的,因此可使用最小模型假設的非參數估計。假設驗證集的數據由 m個獨立同分布的觀察值
組成,其中
是評分系統。這個階段推斷的目的是估計條件期望值
,其中
是驗證集的真實結局。假設 η(·)有連續的二階導數,我們可以應用標準的局部線性平滑方法(Fan and Gijbels [32])。
可通過
進行估計。這里
是下面估計方程的解:








其中 K h( x)= K( x/ h)/ h, K(·)是有限支撐的平滑核函數K(φ)。 h= o p(1)是平滑帶寬(smoothing bandwidth)。

是
生存函數的非參數估計值(Dabrowska [33][34]),其中
。因為我們假設刪失時間
和
是獨立的,基于整個樣本的Kaplan-Meier估計值和
局部估計值收斂于相同的極限。但是,后者可提高
估計值的效率。如果( mh) -1= o p(1),而且當
時,
一致收斂于
。如果 mh 5= o p(1),那么
弱收斂于均數為0的高斯分布(正態分布),其方差為
。其中
(·)是
的密度函數。一個更自動可靠的方差估計程序是重抽樣方法(Gilbert et al. [35];Cai et al. [30];Li et al. [31])。
是攝動估計方程(perturbed estimating equation)的解:















{ B 1,…, B m}是 m個獨立單位指數隨機變量,重復生成{ B 1,…, B m}得到
。
的方差可以用來逼近
的方差。如果定義
是
方差的相應估計值,
的95%置信區間則為
。
的點估計值及其95%置信區間(置信帶),表示個體化預測評分和真實值之間的潛在關系。它可以指導風險的分級,例如可通過設定合適的閾值評分來確定需要積極干預的高風險病人。








需要選擇平滑帶寬來實現上述的推導過程,平滑帶寬可以通過交叉驗證程序獲得。所得帶寬的數量級通常是 O P( m -1/5)。為了忽視漸近偏倚,我們需要一個小于 O P( m -1/5)的平滑帶寬。一個簡單的解決方法是:把交叉驗證選擇的帶寬乘上一個當樣本量增加時收斂于零的因子。
五、個體化治療風險預測統計方法的總結
我們在上文描述了發展幫助病人風險分層及指導臨床干預的評分系統的統計方法。不像傳統的統計建模,這個研究的主要目的是為未來的臨床結局提供一個準確的預測規則。為此,無論模型假設對現有數據是否有效,多種回歸模型都可用來產生預測規則。實踐中我們應該通過最小化臨床有意義損失函數來選擇較佳的預測規則。這里推薦交叉驗證程序,因為其可以減少偏倚。另外,還需要確定評分和結局之間的潛在關系。為此,我們可使用最小模型假設的非參數回歸模型來分析新的驗證集。
第三節 個體化治療的選擇
對于一個給定的治療,病人療效可能不一樣,如一部分病人的療效可能大于另一部分病人。在經典的隨機臨床試驗中,最終的結論取決于整個研究人群的平均療效。可能會出現以下情況:當平均處理效應接近零時,治療對亞組病人(部分病人)仍然有效。相反的情況也可能出現:總體治療效果大于0,不排除亞組病人會出現零效應甚至是負效應。在因果推理框架中,我們假設每個病人都有一對潛在反應變量( Y (1), Y (-1)), Y (1)和 Y (-1)分別表示病人接受治療和安慰劑(或其他處理)的治療結果(Rubin [36])。實際上,我們只能依照病人的實際治療觀察到 Y= Y (1)或 Y (-1)。隨機臨床試驗(randomized clinical trial)的目的在于估計 Y (1)和 Y (-1)期望值之間的差別,即 E( Y (1)- Y (-1))。如果在數據分析之前考慮總體病人的潛在分層,我們可以通過調整多重檢驗來進行合適的亞組分析(Wang et al. [37];Alosh和Hugue [38])。另一方面,在個體化治療策略的統計分析中,感興趣的參數是“個體化”治療效果 μ( x)= E( Y (1)- Y (-1)| X= x),其中 X是干預前測量的一組基線協變量。這種分析主要有兩個目的:第一,估計 μ( x)的符號,用于確定個體病人的最佳治療方案;第二,估計 μ( x),量化個體化治療的效果。為了實現這兩個目的,我們以下面的例子來闡述。
雖然“個體化治療”是媒體中時髦用語,但是更恰當的詞應當是“組群特異性醫學”(group specific medicine)或者“精準醫學”(precision medicine),因為我們能夠估計擁有相同協變量 X的亞組病人的“平均”治療效果。我們知道亞組病人的最佳治療方案,但是這個治療方案對亞組中的每一個病人可能并不是最佳治療方案。眾多的生物標志物可用于表示病人的特征,需要進一步把亞組病人分成更小的亞組,進而為每一個亞組中的病人尋找最佳治療方案。然而,我們仍不知道個體病人“最好”的治療方案,因為每個病人都是唯一的。
一、個體化治療效果的估計
當 X是一個高于2維的向量,在沒有特定模型假設的情況下,通常不能直接估計 μ( x)。為了直接估計 μ( x),常常需要假設 Y (1)| X= x和 Y (0)| X= x條件分布的組合模型。我們使用生存分析的數據來說明這個方法。假定觀察數據由{ U i,Δ i, R i, X i), i=1,…, m}組成,其中 R i=±1表示治療方法的指示變量。 Y(由 T轉化得到)是結局變量。 Y=min( T, τ), τ是一個給定的常數,如 r∈{-1,1}的情況下, P( U﹥ τ| R= r)﹥0(Andersen等 [39];Zhao等 [40])。在這些符號中, Y= Y ( R ), R=±1; R和 X相互獨立。不失一般性,我們假設 Pr( R=1)= Pr( R=-1)=0.5。假設比例風險回歸模型為
,其中 W( X)由 X轉換而來,
是治療 R的基線風險率函數,我們可以通過最大化部分似然函數來估計 β R。此外,還可以通過Breslow統計量來估計累積危險函數
(Breslow [41]),分別定義
和
為回歸系數和累積危險函數。個體化治療效果 μ( x)可用下式進行估計:






這里使用的比例風險率模型并不是唯一的。為了估計 μ( X),我們可以假設其他方便的回歸模型。比如,我們可以假設 E( Y| R, X= x)= γ′ R W( x)和 μ( x)=( γ 1- γ -1) ′W( x)。當 r∈{-1,1},回歸系數 γ r可由
估計:


其中
是生存函數的Kaplan-Meier估計值。我們可以通過
估計 μ( X)。


有時并不需要對完全的條件分布 Y r| X= x建模。比如我們可直接令 μ( x)= β′W( x),其中參數 β可以由最小二乘法目標函數的最小化來估計:

這相當于使用調整協變量 W( X) R來擬合 Y的標準線性回歸模型。通過調整協變量來開展回歸分析是生成評分系統的一個普通方法(Tian等 [42])。例如,可以最大化帶有協變量 W( X) R的比例風險率模型 λ( t| X, R)= λ 0( t) e β′W ( X ) R相應的部分似然函數。即便當上述比例風險率模型不成立時,評分系統
可用作評估治療效果。

所有上述提到的統計模型本質上都是使用不同的方法來確定治療和協變量的交互作用,因此,也適用于其他有交互作用項的回歸模型(Su等 [43];Royston和Sauerbrei [44];Tian和Tibshirani [45])。
二、個體化治療效果方向的估計
為了用協變量 X= x確定個體病人的最佳治療方案,只需要知道 μ( x)的符號。人們可能只滿足于確定 R +={ x| μ( x)﹥0}和 R -={ x| μ( x)﹤0}的區域。例如生存分析的例子中 Y=min( T, τ), μ( x)﹥0代表積極的治療效果, x∈ R+和 R-的病人的最佳治療方案分別表示為 r=1和 r=-1。因此,估計 μ( x)的符號與尋找每個病人的最佳治療方案是一致的。如果每個病人都接受最佳的治療,則能夠使整個人群的總“效用”最大化。因此人們可以通過關于分類規則
最大化整體效用
的方法來分派最佳療法(Zhao等 [46])。在沒有刪失數值的情況下,整體效用的公式表示為
。使上式最大化相當于最小化加權錯分類誤差
。在出現右刪失的情況下,不一定能觀察到 Y i,可以最小化





很多不同的數據挖掘技術都可以用于解決加權分類問題。比如用符號
代替
,用凸連接損失函數(convex hinging loss function)代替指標函數(Hastie和Zhu [47];Zhao等. [48])。改進后的目標函數成為:



其中[ X i] +=| x| I( x≥0)。實際操作中,使用基函數{ W 1( x), W 2( x),…, W k( x)}的線性組合
來代替
。當 K不小時,可以將關于 γ k的適當處罰納入標準支持向量機。于是,剩下的是標準凸優化問題,最終估計的治療分派規則可以是sign
。其中
是目標函數的最小值。最后將
病人分派到 r=1治療;
病人分派到 r=-1治療。此外,作為支持向量機方法的副產品,
可作為
的估計。









評論
在第三節,我們展示了估計 μ( x)和sign{ μ( x)}的幾種方法。當指定的工作模型是正確模型時,估計的結果也將是一致的。但是,實際上,所有工作模型都最多是治療和結局之間的復雜關系的一個大概逼近,因此,當樣本量趨于無窮大時,所有的估計值不一定收斂于真實值。雖然有這種限制,獲得的估計值仍然可以用于病人分類的評分系統。這種評分系統可以用于根據個體病人的治療效果從特定治療方案中選擇獲益或沒有獲益的亞組病人。因此,根據最小模型假設確定評分系統在病人分類中的有效性是非常重要的。我們將在下面的兩節中討論相關的方法。
三、個體化治療效果預測的模型評估
有很多方法可用于構建個體化治療效果估計的評分系統。因此,在目標人群中評價和比較它們的性能至關重要。評分系統的性能有兩種評價標準。第一個標準是評分和 μ( x)(真實的個體化治療效果)之間的差異或一致性;第二個標準是評分系統選擇治療效果理想的亞組病人的有效性。這兩種判斷標準是緊密聯系的。
假定
是治療效果的 J個評分系統,我們想從中挑選出最佳的評分系統。首先需要定義一個合理的最優準則。由于我們要使
近似于 μ( x), ξ j=
和 μ( x)之間的 L 2距離是評分系統 j質量的自然測度。



由于并不知道真正的治療效果 μ(·),我們不能直接使用觀察值估計 ξ j, j=1,…, J。然而,我們可以通過

來估計 ξ m和 ξ l的差異。這個公式可用來比較 m評分系統和 l評分系統。在一定的正則條件下,
是 ξ j的一致估計值加上一個不依賴于評分系統的常數(Sinovitch [49])。當用相同數據集來構建評分系統時,
可能會出現偏倚,因為
用于估計
時通常會發生不同程度的低估。因此,需要使用交叉驗證校正潛在的偏倚。我們把數據集隨機分成 K個大小一致的不相交子集,表示為{Γ k, k=1,…, K}。對每個 k,我們用不在Γ k的所有觀察值來重構評分系統
和
,然后用Γ k內的觀察值來估計 ξ m和 ξ l的差異,公式為







ξ m- ξ l的交叉驗證估計值等于
。這樣
可用來劃分評分系統,并確定最小平方誤差的評分系統。


一般而言,根據給定回歸模型得到的評分系統不能準確地估計治療效果本身。但是仍然希望評分系統可以根據個體化治療效果對病人進行分類。實際上,可以根據估計評分對病人進行分類,并確定從治療中收益最多的亞組病人。這個目的啟發了下面的方法:對于評分系統 j,將得分為上100(1- α)%的病人亞組記為
;其中 α∈(0,1);可以用非參數方法將
作為亞組病人的療效估計。也就是設定



和
,其中
是
的經驗累積分布函數。當 α=0,
是總體人群治療效果的估計值。當
是根據給定的評分系統得到的最有潛力病人的治療效果的估計值。如果第 j個評分系統可以很好對病人進行分類,我們希望
是單調遞增的。這意味著我們可以繪制平均差異曲線(AD曲線,
對 α),并使用曲線來評估評分系統的性能。例如,如果想比較評分系統 m和 l,我們可以在同一張圖表中繪制它們的AD曲線,并選擇更傾斜的AD曲線。







注意到
,即所有的AD曲線都有相同的起始點。這樣,我們可以使用治療效果曲線
和水平線
之間的面積表示治療效果曲線的平均水平。事實上,兩個曲線間的面積近似于




其中 ψ(·)是單調遞增函數, F j(·)是
的累積分布函數。由于
總是服從均勻分布 U(0,1),這里的常數和特定的評分系統是互相獨立的。進一步,兩條曲線間的特定加權面積等于評分和真實的個體治療效果之間的相關系數乘以一個公共的常數(Zha等 [50]),即



因此,兩條曲線間的(加權)面積為評分系統和真實的個體治療效果的分級提供了一個理想的標準。例如,我們可以使用比率

比較評分系統
和
的性能。當同一數據集用于評分系統的構建和評估,為了避免出現“自我服務”(self-serving)的偏倚,我們仍然應該在評估階段采用交叉驗證方法。確切地說,可以把數據集隨機分成訓練集和評估集。在訓練集中構建評分系統
,在評估集中構建
和
。重復這個過程B次。在第 b次( b=1,…, B)迭代中,假設
和
分別表示為
和
。第 j個評分系統的AD曲線的交叉驗證表示為
。其中,
和
。













通過交叉驗證得到AD曲線
,可以估計任一對評分系統
間面積的比率。然后根據個體治療效果為病人風險的分層選擇“最好的”評分系統。


四、估計個體化治療效果評分系統的統計推斷
評分系統可對未來病人進行風險分層。下一步需要根據評分和真實治療效果的聯系進行統計推斷。因為評分系統的最終建立包含了復雜的模型擬合和模型選擇,需要使用新數據(與評分系統選擇和構建無重疊的數據)進行有效的統計推斷(Cai等 [51])。理論上,評分系統中用于統計推斷的新數據應該來源于一個獨立的研究。因為評分是單維的,所以可以應用最小模型假設的非參數方法。假定檢驗集的數據由
組成,其中
是最終的評分系統。這個階段推斷的目的是估計條件期望值:



其中
和
分別為治療組和對照組的結局。在弱假設條件下,我們可以使用標準局部線性平滑方法。可以使用
估計
,其中
是下面估計方程的解:






其中,
是生存函數
的局部非參數估計值。如果( mh) -1= o p(1)且 h= o p(1),那么
在
內依概率一致收斂于
。如果 mh 5= o p(1),那么
弱收斂于均數為0,方差為
的高斯分布,其中 f S(·)是
的密度函數。
的方差可用自助重抽樣方法進行估計。實際上,如果定義
是攝動估計方程(perturbed estimating equation)的解











其中
是生存函數
的攝動“局部”Kaplan-Meier估計值,{ B 1,…, B m}是 m個獨立單位指數隨機變量,那么
的方差可以用來逼近
的方差,并計算
的95%置信區間。
的點估計和它的置信區間/置信帶為量化病人的實際治療效果提供了有用的信息。我們可以通過交叉驗證法選擇用于上述方法的平滑帶寬。與2.4節提到的情況類似,需要引進小的平滑帶寬防止
統計推斷時出現的漸近偏差。







五、個體化治療效果預測統計方法的總結
我們在前面描述了用于病人分層的評分系統的統計方法。與第2節中討論個體化風險分層所用的統計學方法相似,這里的目的是預測個體化治療的效果。假設治療效果的變化依賴于基線協變量 X,可以應用包含治療和協變量交互作用的多個回歸模型,推導出評分系統并將其用于估計個體的治療效果。或者直接通過整體效用的最大化來估計最佳治療分派規則。評分系統的評估面臨著特殊的挑戰,因為實際上個體化治療效果并不能直接被觀察,導致我們不能直接估計評分系統的預測誤差。我們只能估計兩個評分系統均方預測誤差之差或者(評分的秩與真實的個體治療效應之間)相關系數之比。我們還可以就評分與未來結局之間的潛在關系進行非參數統計推斷。
第四節 討論
這篇文章中,我們回顧了個體化治療的風險分層和模型選擇的統計學方法,這些方法都可用于未來的臨床實踐。這篇文章的目的在于構建、評估和選擇評分系統,從而準確地預測個體病人的臨床結局或治療效果。個體化治療的分析通常包括3個階段:①通過擬合工作模型來構建評分系統;②通過交叉驗證方法評估和選擇最佳評分系統;③使用新數據對已選擇的評分系統進行統計推斷。
在第1階段,回歸模型只是用來推導評分系統的工具,并不需要完全正確。當協變量的維數(相對于樣本量而言)較大時,可使用合適的正則化方法來擬合一個穩定簡潔的回歸模型(Friedman [52];Tibshirani [53];Zou和Hastie [54])。在第2階段,我們需要通過交叉驗證方法來避免“表觀誤差”型的估計偏倚,從而選擇最佳的評分系統。最后,一旦得到最佳的評分系統,我們則利用獨立數據集對其開展非參數統計推斷。
一般認為在后續的統計推斷中忽略構建評分系統時的隨機性是非常奇怪的。但是,這個方法和我們實踐中遇到的問題是一致的,如Framingham的危險評分一旦建立就是固定的而非隨機的(Wilson等 [55])。值得注意的是,本文所展示的方法主要是對已獲得數據的分析。在個體化治療方面還有很多新研究,并取得了很多有趣的進展(Sargent等 [56];Simon [57];Zhao等 [58];Arkenau等 [59];Frech等 [60];Le Tourneau等 [61])。與最佳動態治療方法有關的統計學方法是另一個熱點問題,本文沒有涉及(Murphy [62];Moodie等 [63];Chakraborty等 [64])。
參考文獻
1.Arnedos M.,Andre F.,Farace F.,et al. The challenge to bring personalized cancer medicine from clinical trials into routine clinical practice:The case of the Institut Gustave Roussy. Mol Oncol,2012,6:204-210.
2.Ziegler A.,Koch A.,KrockenbergerK.,et al. Personalized medicine using DNA biomarkers:a review. Human Genetics,2012,131(10):1627-1638.
3.Jungic S.,Tubic B.,Skrepnik T. The role of biomarkers in the development of novel cancer therapies. Drug Metablo Durg Interct.,2012,27(2):89-99.
4.Fernald G.,Capriotti E.,Daneshjou R.,et al. Bioinformatics challenges for personalized medicine. Bioinformatics,2011,27(13):1741-1748.
5.Gage B.,Johnson J.,Deych E.,et al. Use of pharmacogenetic and clinical factors to predict the therapeutic dose of warfarin. Clin Pharmacol Ther,2008,84:326-331.
6.Lenzini P.,Wadelius M.,Kimmel S.,et al. Integration of genetic,clinical,and laboratory data to refine warfarin dosing. Clin Pharmacol Ther,2010,87:572-578.
7.Lloyd Jones D. Risk prediction in cardiovascular medicine. Circulation,2010,121:1768-1777.
8.Draper N.,Smith H. Applied regression Analysis. 3rd Edition. John Wiley & Son,1998.
9.Tian L.,Cai T.,Goetghebeur E.,et al. Model evaluation based on the sampling distribution of estimated absolute prediction error. Biometrika,2007,94(2):297-311.
10.Fleming T.,Harrington D. Counting processes and survival analysis. John Wiley & Son,1991.
11.Zhao H,Tsiatis A. A consistent estimator for the distribution of quality adjusted survival time. Biometrika,1997,84(2):339-348.
12.Cox D. Regression models and life-tables. Journal of the Royal Statistical Society( Series B),1972,34(2):187-220.
13.Buckley J.,James,I. Linear regression with censored data. Biometrika,1979,66(3):429-436.
14.Wei L. The accelerated failure time model:A useful alternative to the Cox regression model in survival analysis. Statistics in Medicine,1992,11(14):1871-1879.
15.Lin D.,Fleming T.,Wei L. Confidence bands for survival curves under the proportional hazards model. Biometrika,1994,81:73-81.
16.Park Y.,Wei L. Estimating subject-specific survival functions under the accelerated failure time model. Biometrika,2003,90:717-723.
17.Lin D Y,Wei L J. The robust inference for the Cox proportional hazards model. Journal of American Statistical Association,1989,84:1074-1078.
18.Xu R,O’Quigley J. Estimating average regression effect under non-proportional hazards. Biostatistics,2000,1(4):423-439.
19.Fan J,Huang L. Goodness-of-fit tests for parametric regression model. Journal of the American Statistical Association,2001,96(454):640-652.
20.Lin D,Wei L,Ying Z. Model-checking techniques based on cumulative residuals. Biometrics,2002,58(1):1-12.
21.Stone M. Cross-validatory choice and assessment of statistical predictions. Journal of Royal Statistical Society.( Series B),1974,36:111-147.
22.Geisser S. The predictive sample reuse method with applications. Journal of American Statistical Association,1975,70:320-328.
23.Efron B,Tibshirani R. Improvements on cross-validation:the.632+bootstrap method. Journal of the American Statistical Association,1997,92:548-560.
24.Efron B. The estimation of prediction error:covariance penalties and cross-validation. Journal of the American Statistical Association,2004,99:619-632.
25.Ridker P,Glynn R,Hennekens C. C-reactive protein adds to the predictive value of total and HDL cholesterol in determining risk of first myocardial infarction. Circulation,1998,97:2007-2011.
26.Ridker P. C-reactive protein and the prediction of cardiovascular events among those at intermediate risk:Moving an inflammatory hypothesis toward consensus. Journal of the American College of Cardiology,2007,49(21):2129-2138.
27.Uno H,Cai T,Tian L,et al. Graphical procedures for evaluating overall and subject-specific incremental values from new predictors with censored event time data. Biometrics,2011,67:1389-1396.
28.Uno H,Cai T,Tian L,et al. Evaluating prediction rules for t-year survivors with censored regression models. Journal of the American Statistical Association,2007,102(478):527-537.
29.Tian L,Cai T,Wei L. Identifying subjects who benefit from additional information for better prediction of the outcome variables. Biometrics,2009,65(3):894-902.
30.Cai T,Tian L,Uno H,et al. Calibrating parametric subject-specific risk estimation. Biometrika,2010,97(2):389-404.
31.Li Y,Tian L,Wei L. Estimating subject-specific dependent competing risk profile with censored event time observations. Biometrics,2011,67(2):427-435.
32.Fan J,Gijbels I. Local Polynomial Modelling and its Applications. London:Chapman and Hall,1996.
33.Dabrowska D. Non-parametric regression with censored survival time data. Scandinavian Journal of Statistics,1987,181-197.
34.Dabrowska D. Uniform consistency of the kernel conditional Kaplan-Meier estimate. The Annals of Statistics,1989,17(3):1157-1167.
35.Gilbert P,Wei L,Kosorok M,et al. Simultaneous inferences on the contrast of two hazard functions with censored observations. Biometrics,2002,58(4):773-780.
36.Rubin D. Estimating casual effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology,1974,66:688-701.
37.Wang S,ONeill R,Hung H. Approaches to evaluation of treatment effect in randomized clinical trials with genomic subset. Pharm Stat,2007,6:227-244.
38.Alosh M,Hugue M. A flexible strategy for testing subgroups and overall population. Statistics in Medicine,2009,15:3-23.
39.Andersen P,Hansen M,Klein J. Regression analysis of restricted mean survival time based on pseudo-observations. Lifetime Data Analysis,2004,10(4):335-350.
40.Zhao L,Tian L,Uno H,et al. Utilizing the integrated difference of two survival functions to quantify the treatment contrast for designing,monitoring,and analyzing a comparative clinical study. Clinical Trials,2012,9(5):570-577.
41.Breslow N. Discussion of the paper by DR Cox. Journal of Royal Statistical Society( Series B),1972,34:216-217.
42.Tian L,Alizadeh A,Gentles A,et al. A simple method for detecting interactions between a treatment and a large number of covariates. Technical Report( Stanford University),2012.http://www-stat.stanford.edu/tibs/ftp/interactionpaper.pdf.
43.Su X,Zhou T,Yan X,et al. Interaction trees with censored survival data. The International Journal of Biostatistics,2008,4(1):Article 2.
44.Royston P,Sauerbrei W. Interactions between treatment and continuous covariates:A step toward individualizing therapy. Journal of Clinical Oncology,2008,26(9):1397-99.
45.Tian L,Tibshirani R. Adaptive index models for marker-based risk stratification. Biostatistics,2011,12(1):68-86.
46.Zhao Y,Zeng D,Rush A,et al. Estimating individualized treatment rules using outcome weighted learning. Journal of the American Statistical Association,2012b,107:1106-1118.
47.Hastie T,Zhu J. Discussion of support vector machines with applications by Javier Moguerza and Alberto Munoz. Statistical Science,2006,21(3):352-357.
48.Zhao X,Dai W,Li Y,et al. AUC-based biomarker ensemble with an application on gene scores predicting low bone mineral density. Bioinformatics,2011b,27(21):3050-3055.
49.Sinovitch J. Ph.d thesis. Harvard University,2008.
50.Zhao L,Tian L,Cai T,et al. Effectively selecting a target population for a future comparative study. Harvard University Biostatistics Working Paper Series,2011a,134.http://biostats.bepress.com/harvardbiostat/paper134.
51.Cai T,Tian L,Wong P,et al. Analysis of randomized comparative clinical trial data for personalized treatment selections. Biostatistics,2011,12(2):270-282.
52.Friedman J. Multivariate adaptive regression splines(with discussion). Annals of Statistics,1991,19(1):1-141.
53.Tibshirani R. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B,1996,58:267-288.
54.Zou H,Hastie T. Regularization and variable selection via elastic net. Journal of Royal Statistical Society,2005,67:301-320.
55.Wilson P,D’Agostino R,Levy D,et al. Prediction of coronary heart disease using risk factor categories. Circulation,1998,97(18):1837-1847.
56.Sargent D,Conley B,Allegra C,et al. Clinical trial designs for predictive marker validation in cancer treatment trials. J Clin Oncol,2005,23:2020-2027.
57.Simon R. The use of genomics in clinical trial design. Clin Cancer Res,2008,14:5984-5993.
58.Zhao Y,Kosorok M,Zeng D. Reinforcement learning design for cancer clinical trials. Statistics in Medicine,2009,28(26):3294-3315.
59.Arkenau H,Barriuso J,Olmos D,et al. Prospective validation of a prognostic score to improve patient selection for oncology phase i trials. J Clin Oncol,2009,27:2692-2696.
60.Frech B,Joo J,Geller N,et al. Statistical design of personalized medicine interventions:The clarification of optimal anticoagulation through genetics(coag)trial. Trials,2010,11:108-116.
61.Le Tourneau C,Kamal M,Tredan O,et. al. Designs and challenges for personalized medicine studies in oncology:focus on the shiva trial. Target Oncol,2012,7(4):253-265.
62.Murphy S. Optimal dynamic treatment regimes. Journal of the Royal Statistical Society( Series B),2003,65(2):331-366.
63.Moodie E,Richardson T,Stephens D. Demystifying optimal dynamic treatment regimes. Biometrics,2007,63:447-455.
64.Chakraborty B,Murphy S,Strecher V. Inference for non-regular parameters in optimal dynamic treatment regimes. Stat Methods Med Res,2010,19(3):317-343.
作者簡介
趙曉光,現為西安醫科大學第一附屬醫院骨外科主任。1995年畢業于西安醫科大學臨床醫學系。從事骨科專業十余年,擅長于脊柱骨折及各種復雜關節骨折、人工髖關節置換的手術治療。在核心醫學期刊發表論文多篇,曾參與科研課題《脊髓缺血再灌注損傷》。現為中華醫學會陜西分會骨科分會會員。主要研究興趣為個體化醫學和臨床結果預測。
陳新林,現為廣州中醫藥大學基礎醫學院預防醫學和衛生統計學教研室副教授。2005年畢業于中山大學衛生統計學專業,獲衛生統計學碩士學位。研究興趣包括療效評價(QOL、PRO量表)的統計分析方法、隨機對照試驗的設計及統計分析和Meta分析。