- 現代醫學統計學(第2版)
- 方積乾 陸盈主編
- 16960字
- 2019-08-09 14:14:29
第二章 數據描述、變異建模與統計實踐
杜鴻雁 1 譚銘 2 陳豪 3 金華 3
1美國NorthShore醫療健康系統臨床信息研究中心
2美國喬治城大學生物統計、生物信息與生物數學系,Lombardi綜合癌癥中心
3華南師范大學數學科學學院概率統計系
第一節 概述
在分子生物學和遺傳學快速發展的年代,醫學研究在各級水平上(從基礎學科到轉化性研究乃至臨床研究)以驚人的速度產生了大量數據,倘若這些數據不轉換成信息與知識,其本身沒有什么用處。作為科學工具的統計學的重要性就在于能夠通過分析樣本數據對未知的總體作出推斷。變異的概念始終貫穿于統計學理論與實踐中,它是我們的日常生活、我們的數據以及由數據所得到的統計估計中所固有的。由于人和人之間是不同的,即便是非常好的藥物與治療方法也可能僅對一些病人有效,而對另一些人無效。我們的血壓值總是在變,無論你擔心與否,或你是否處于良好健康狀態,以及如何控制其他的未知因素(隨機變異),它總是受時間、測量方法以及由誰測量等影響。隨機變異是無法解釋的變異。實際上,如何控制由于不同可能的因素而造成的變異正是統計實驗設計的任務。由于隨機變異永遠都存在,實際工作中,我們不可能控制所有的影響因素。統計方法使我們能判斷需要多少樣本(受試者數)才能從趨勢中分離出噪音。變異的統計估計可以使我們定量地確定生物醫學研究結果中的不確定性。這些知識在實際工作中可以用來決定病人的治療策略。這種努力的目標是基于遺傳學信息來達到個體化用藥。
很明顯,數據的描述,變異的理解是同實驗設計和產生數據的生物醫學過程以及研究設計(為科學探索而產生數據的籌劃過程)是緊密聯系的。理解生物和醫學的過程對于理解數據的意義非常重要。以簡明的方式對變異進行描述和建模的方法與工具,使我們很容易地把數據轉換為信息,其關鍵在于理解這些數據的變異。常用的分析方法在Moore和McCabe [1]1989年編寫的書中第一講以及Altman [2]1991年編寫的書中已經介紹和總結了,這一章的目的在于更好地描述和理解變異,介紹幾種比較先進的方法。因此本章節將包含基本的統計方法,以及一些最新的進展,比如離散混合效應模型。另外,我們為從研究設計到針對預測和過分擬合等統計分析實踐,提供一些有用的一般性指導。并且,通過回顧分析一個以生活質量為結局變量的大型隨機化試驗,其中刪失值是很大的挑戰,我們給讀者展示統計建模的過程,同時強調統計實踐中需要特別小心。
第二節 描述數據的方法
對數的理解并對其作出任何推斷的第一步是要了解所要處理的數據屬何種類型,因為不同的數據類型需要用不同的統計方法來分析。實際工作中非統計學家有時會很容易忽略它。在本節中我們將首先回顧一些在生物醫學研究中常見的數據類型并特別強調不常見于教科書但卻在醫學研究中越來越常見的某些類型,我們還將指出應當用來分析它們的方法。
一、數據類型與測量
盡管生物醫學研究中的數據常常是復雜的,但它們確實可以被分為幾種常見的類型,對它們的理解將會指導我們選擇正確的方法來總結和分析它們。數據的類型決定了用什么樣的方法來分析數據作出推斷。下面除了回顧一些基本的數據類型外(Altman [1]),我們還將敘述其他的一些在現代生物醫學研究中越來越多見的數據類型。
1.分類數據
當一個病人的病情或他的某些狀況能夠分成幾種類別時,對他們的觀測可以產生分類數據(有時也稱為二分類或定性數據)。最簡單的例子是yes或no兩個分類的觀測,如一個病人對腫瘤治療是否有反應、吸煙還是不吸煙,或這個病人是否患有結腸癌等。這種類型的數據有時被稱為二分類或0-1變量數據。三分類或更多分類的數據有如血型(A、B、AB、O);復合分類如男性或女性白血病和非白血病病人。由于這些分類型沒有明顯的順序(血型、性別、疾病分類),這種類型的數據也稱為名義數據。它們可以用列聯表或廣義線性模型的方法來分析。另一種分類數據如吸煙的分類(完全不吸、有時吸、嚴重吸煙),乳腺癌的分期(Ⅰ、Ⅱ、Ⅲ、Ⅳ),治療后改善的程度(無改善、中度改善、明顯改善、完全改善),以及作為主觀評價疼痛的等級(輕微、中等、嚴重、無法忍受)。像這樣在所有類別之間有很明顯的等級時成為有序數據。然而就像名義數據那樣,盡管某些有序數據也會以數字形式出現如乳腺癌的分期(Ⅰ、Ⅱ、Ⅲ、Ⅳ),但有序數字的算術運算沒有意義,如我們很難說無法忍受的疼痛是嚴重疼痛的兩倍。
有一種不同的情況是用分數來表示一定結果的計分數據,這種數據中從一個點到另一個較高點的增量確實是等距的。
2.連續性數據
連續性數據通常是指通過測量得到的數據,如體重、氣溫、血壓和大多數血液化學檢驗的數據(如膽紅素、血紅素、膽固醇)。這些觀測或它的轉換值(如對數轉換值、平方根轉換值)通常認為是服從正態分布的,目前連續性數據的統計方法和分析模型是發展最全面的,然而這些測量的準確性和可靠性對于作出有效的推斷非常重要(Gleser [3])。尤其應當注意的是當在分析中這些觀測被用作自變量時,有時需采用變量誤差(或測量誤差)模型(Carroll等 [4])。一般教科書通常沒有強調測量誤差的影響及其重要性。最近的研究將測量誤差模型進一步推廣到廣義線性模型和生存分析方面。連續性數據也包括區間標度數據(如一列溫度10、20、30)和比率標度數據(如年齡10、20、30)。誠如其名,將年齡上的30歲解釋為10歲的3倍之老(30/10=3),這樣是說得過去的;但將溫度上的30度說成是10度的3倍之熱,這樣的說法是沒有意義的,因為溫度沒有絕對零度,只能說30度比10度熱20度(30-10=20)。
3.比
當我們取兩個變量的比值時就產生了比數據。例如排除率(一個重要的心臟功能指數),是指心臟舒張末期容量的差值同心臟收縮末期容量之比。還有與一定基值相比的腎臟功能的百分比變化(如腎小球濾過率)。最近,微點陣基因表達比成為許多邊緣醫學研究的焦點。微點陣技術可以允許大范圍(上千個基因)快速的基因表達分析。在這些實驗中,每個點即每個基因的表達情況是以疾病組織樣本的基因表達參照樣本的基因表達之比來表示的。對這些基因表達比的分析必須考慮到比的來源需要利用適當的分布(實際上多為Gamma分布)(Chen等 [5],Newton等 [6])。
4.連續性比例數據
它實際上是當比為0到1的百分數時的一種比值數據的子類型,例如,與基線相比不同時間腎功能降低的百分比,關于某些生理變量及分子或基因靶體在治療前后變化的百分比。用Barndorff-Nielsen和Jorgesen的單純形分布(Jorgesen [7])直接針對比例反應的均值建模的統計方法才剛剛出現(Song和Tan [8],Tan [9])。單純形分布考慮到這類反應變量是0與1之間的百分比,而且有很大的離散型。
5.重復測量
在一些疾病的自然研究或療效觀察中,受試者常在不同時間被重復地隨訪或觀察,或對一些實驗單位(如雙眼或兩側肢體)進行多項測量或觀測。這類研究中所獲得的數據稱為重復測量數據(repeated measures)。當這些數據是對同一個體不同時間的觀察值,也稱為縱向數據(longitudinal data)。這種實驗設計對于評價疾病長時間的變化情況常常是必要的。例如,我們可能會對一些生理變量(如膽紅素濾過率)或遺傳變量(如端粒的長度)的長時間的變化情況進行觀察,或觀測長時間內某些事件是否發生(如耳朵的感染)。
在這類事件設計和數據分析中,關鍵是要考慮病人自身和器官群間的相關性。例如,某個兒童在一側耳朵感染時,另一個耳朵也容易感染。因此,10個病人(每人測量2只耳朵)的功效不如20個病人各測量1只耳朵的功效。
根據反應變量的類型,我們可能有連續性數據或分類數據或等級數據。不同類型的重復測量數據需用不同的統計模型來分析,盡管目前都可以統一用廣義線性模型(Diggle,Liang和Zeger [10])來分析。但對于重復等級資料,還可使用廣義線性模型以外的模型,例如,比例優勢模型(Qu和Tan [11],Tan等 [12])。
6.刪失數據
當我們不能精確地測量一個觀測,而僅僅知道這個觀測是超過一定的閾值時,就稱這個觀測被刪失。醫學研究中最常見的刪失數據是生存數據,就是到一定事件發生時的時間長度數據,這事件可以是病毒感染,或病人的死亡。這或許也是醫學研究中最常見的數據類型。因為在醫學實踐中我們經常想知道某種新藥或某種外科手術或某個醫學手段是否比常規方法挽救更多生命,或更多的延長生存時間,由于以下幾個原因,生存數據的分析常需要特殊的方法。首先,生存數據的分布不是對稱的,因此也不服從正態分布,在建模時用其他的分布會更加滿意;第二,在分析時間數據時常有某些病人的生存終點還沒有被觀測到,甚至某些病人的生存狀態由于失訪而無法知道。
二、變異
變異是所有統計理論和方法中最重要的一個基本概念。世界充滿了不確定性,有幸有統計方法來科學地研究不確定性的存在。由于實驗中,尤其是人體試驗中變異的存在,通常一個具有生物活性的藥物只有5%的機會進入臨床。變異使醫學研究中統計學和統計學家都必不可少。所以與此有關的另一個基本概念就是用來描述和分析數據的概率分布。我們經常假定觀測值來自只有一些參數未知的某種分布,最重要的分布是正態分布,它在統計學中具有非常重要的地位,因為中心極限定理表明許多常見的統計量都近似服從正態分布。不假定參數形式的方法稱為非參數方法。參數模型的優點是簡單有效。有時也采用一種折中(半參數)的方法,只是將感興趣的主要特征假定為一個參數模型。目前,參數和半參數方法是醫學研究中最常用的方法。
三、基本方法
最常用的數據描述指標是均值與標準差,它常同數據的參數描述聯系在一起。正態分布完全由它的均值與標準差確定。均值用于測量中心位置而標準差描述變異性。由于正態分布在統計推斷理論中的重要性,這兩個指標具有特殊的意義。但如果研究變量的分布不是正態的,它們則不一定能給出好的推斷值。有時變異會超出所假定分布能夠描述的范圍(即所謂的過度離散)。
另一些常用于描述數據的統計量是5個數值綜合統計量,即最小值、最大值、75%、50%(中位數)和25%(分位數)。同均值和標準差一起,這5個數值能很好概括數據的分布。例如,如果分布是對稱的,則均值與中位數應該相等。若均值比中位數大,分布呈負偏峰,若均值比中位數小,分布呈正偏峰。
例2-1 一個關于topotecan在實體癌中藥代動力學研究的Ⅰ期臨床試驗。Topotecan是一種新的分子靶向性抗腫瘤藥物。這項研究旨在確定Ⅰ期臨床試驗中是否可通過藥代動力學指導下的劑量調整措施而降低Topotecan內酯系統暴露的變異,暴露情況是用血漿濃度-時間曲線下的面積來衡量的。試驗是給15個有復發實體癌的兒童在連續兩周內、每周5天,靜脈注射topotecan,通過調整藥物的劑量以使每天topotecan內酯血漿濃度-時間曲線下面積(AUC)盡量保持在某個特定的目標范圍內,隊列1的目標為(150±30)ng/ml*hr(9個病人)。其中隊列1的兩個病人由于毒性過大而移至隊列2(10天后),即把AUC的目標范圍由(150±30)ng/ml*hr降至(150±20)ng/ml*hr。試驗期間,分別在第1、3、6、8、10天測量AUC。
四、作圖法
事實上有時一幅圖勝過數千個文字。在統計學和醫學研究中經常使用作圖的方法來描述和說明。
例2-2 前述的5個指標就常常被集中反映在箱須圖(box-and-whisker)中(見Altman [2]),中線代表中位數,箱子的上下兩個邊緣代表25和75百分位數(或者更低到更高的百分位數),兩個須分別指的是最小和最大值。為了觀察15個病人AUC數據的總體分布和變異,圖2-1給出了在第1天(第一次給藥)和第3天(第二次給藥)15個病人AUC的箱須圖。如圖可見第1天AUC的分布偏向右側,很不對稱;而第3天的分布則比較對稱,這部分顯示了基于藥代動力學的藥物劑量調整的效果。

圖2-1 第1天與第3天AUC的比較
為了描述數據的分布和變異,常常使用直方圖和一些平滑技術。樣條平滑估計是對分布密度的一種非參數估計,它可以較好地描述分布的概率密度。用現代的統計軟件是很容易產生這種估計并將其重疊在直方圖上。圖2-2給出了例2中隊列1的8個病人的AUC直方圖及擬合的密度曲線。其中“固定劑量組(fixed)”指的是8個病人的36個AUC值,其AUC值是以一個固定劑量(4mg/m 2)除以每個病人topotecan內酯清除指標來計算的;“劑量調整組(targeted)”指的是同樣這8個病人的27個實際AUC值,而第一次給藥的8個AUC值及第二次給藥的1個AUC值被排除了。

圖2-2 固定劑量組(Fixed)與劑量調整組(Targeted)AUC的比較
第三節 通過模型調整因素來描述數據
就像前面提到的,數據的有效描述依賴于設計。有時對復雜設計下產生數據的總結不能夠直接得到,比如,當觀測之間存在依賴性或存在缺失數據時,一個直接由原始數據得到的均值和標準差可能會誤導。如在例2-1中病人經歷了多次化療和藥代動力學研究,而某些病人缺失了若干次,這樣就產生了非平衡重復測量的數據結構。我們可以使用混合效應模型來估計達到目標(AUC值達到控制目標范圍內)和沒有達到目標的病人的藥代動力學參數。對于這類數據,綜合統計量(如均值與標準差)的計算需要考慮數據間的相關。為了便于比較,表2-1列出了考慮相關(調整后)及未考慮相關(未調整)時取得估計值。由表中可以看出,基于模型,利用所有數據所得的綜合統計量的數值與簡單計算得到的統計量數值不同,如作統計推斷應使用考慮相關的統計量。
表2-1 基于混合效應模型及簡單計算的均值與標準差

為了避免偏性,需要作基于模型的精心估計。從Meyers,Nelson和Tan [13]以及Nelson [14]還可看到其他的一些例子。例如利用混合效應樣條模型來估計糖尿病在生活不同階段的平均腎小球濾過率及標準誤。我們將在4.4節與第5節中分別對連續性比例數據和不完整縱向數據探討基于模型的方法。
第四節 過度離散問題
過度離散指的是觀測到的變異(方差)大于某個假定模型下名義上變異的現象。從統計學角度上說,過度離散表明所假設分布的均值-方差關系是不正確的。盡管通常認為過度離散常發生在二項分布或Poisson分布假定下的離散數據模型中,近年來在Song和Tan [8]的研究中發現它也可以發生在連續性比例數據中。實際上在統計學中,很早以前就注意到了過度離散的存在。1951年Fisher就注意到在實踐中許多數據是過度離散的。這就自然對我們提出了問題,分析中忽視過度離散的存在將會有什么后果?有哪些適當的方法可以用來對過度離散的數據進行檢測和建模。在這一節中,我們將在幾種分布中討論這些問題,包括已熟悉的二項分布和Poisson分布數據,以及關于比例數據的新進展。
一、過度離散的二項分布數據
兩分類結果,如治療的成功/失敗,對腫瘤藥物有無反應等,是醫學研究中最常見的。通常我們定義成功的概率為 p, n分類序列(例如, n個細胞, n個小鼠或 n個病人)中的每一個二分類(0-1)結果為 Y i,則二項分布的結果可以表示為
。當經驗方差大于二項分布的方差 np(1- p)時,數據就存在過度離散。方差是均值 p的一個函數,這時分布是完全由參數 p所決定的。二項分布的方差為


因此,當二分類數列彼此間不獨立時,也就是說一些協方差cov( Y i, Y j)不為零時,就會產生過度離散現象。其后果取決于過度離散程度的輕重。一般說來,過度離散是不能忽略的。
過度離散可以用廣義線性模型來檢驗。隨著近年來發展起來的廣義線性混合效應模型和Bayesian等級模型,可以直接通過建模來考慮過度離散。
二、過度離散的Poisson分布數據
類似于二項分布數據,Poisson分布也是由它的均值參數來決定的。由于Poisson模型屬于廣義線性模型,與二項分布中類似的檢驗統計量和建模方法可以用來對Poisson分布數據中的過度離散進行檢驗。
三、過度離散的連續性比例數據
連續性比例數據和方向性數據在以前的文章中很少被談到。當反應變量是位于0到1的百分數時就會產生連續性比例數據,例如同基線相比不同時間的腎臟功能降低百分數,或者同基線相比血壓降低的百分數。實際工作中常把它們當成正態分布。然而,就如Song和Tan [8]指出的,反應百分比的變異超出了正態分布能夠描述的范圍。盡管當離散參數很小時,離散模型近似于正態分布(Jorgensen [7]),然而真實世界的數據卻經常存在很大的離散。這時用正態分布來描述和分析是不合適的,因為當兩個變量服從正態分布時(這個假定常被認為是合理的),而兩個變量的比值一般卻并不服從正態分布。
例2-3 本例是一個研究視網膜修復中眼內氣體作用的前瞻性眼科學研究(Meyers等 [13])。結果變量是眼內氣體殘留百分比。31個病人在手術前向眼內注射了氣體。在隨后的三個月期間隨訪了3到8次(平均5次)。每一次隨訪眼內氣體容量都以其占初始氣體容量的百分比來記錄。研究問題是要估計氣體消失的動力學(如氣體衰減率)。反應變量定義在0到1之間。盡管logit變換后的反應變量可以使用線性回歸模型,但是非線性轉換后的反應變量常常很難解釋。尤其,非線性轉換后反應變量的系列相關結構常難以再轉回到原來的反應變量。研究目的是為氣體衰減均值對若干協變量的依賴直接建模。通常假定反應變量是正態分布的而忽視反應變量是定義在0到1間的百分比,然而經過以下的分析我們會發現百分比反應變量的變異超出了正態分布能夠描述的范圍。
離散參數 σ 2的矩估計可以通過 d( Y; μ)的期望值等于 σ 2來估計

若
ij是一致性估計,當 m趨于無窮大時,它就是 σ 2的一致估計。

在例3中,離散參數 σ 2的估計等于14.2。基于自由度為2的 χ 2分布 p值為0.0008,提示離散參數明顯大于0,也就是,明顯大于正態分布的離散程度。提示氣體容量百分比不服從正態分布。實際上,在圖中也可以看出離散參數很大時單純形密度函數大多集中在0.8到1之間,這一點同數據的分布特性相符,也就是說多于40%的觀測值位于這個范圍內。另外,Song,Qiu和Tan [15]考察了離散程度隨時間和其他協變量是如何變化的,并將邊際模型推廣到允許離散程度隨時間而改變的情形。因此,在這種數據的分析中應當考慮過度離散。
四、連續性比例數據的離散性建模
對于上面的例子,已經知道氣體容量并不服從正態分布,存在過度離散的現象,因此下個問題就是如何分析這種過度離散的縱向數據。因為一個重要的目標是對特定個體進行推斷,所以一個自然的模型是混合效應模型,其中結局變量服從單純形分布。下面簡要介紹Qiu,Song和Tan [16]提出的這種單純形混合效應模型(SMM)。
令 y ij是第 i個個體在時間 j的反應變量,而 x ij與 z ij分別為對應固定效應和隨機效應的解釋變量。假設對于第 i個個體,給定其 q維隨機效應向量 b i, y ij是條件獨立的,均值為 μ ij= E( y ij| b i)。因為結局變量服從單純形分布(見附錄),故有 y ij| b i~ S -( μ ij, σ 2),而條件均值 μ ij與預測變量(固定效應和隨機效應)相關關系為:

其中 g為連結函數, β為 p維固定效應向量,隨機效應 b 1, b 2,…,
,且 D= D( θ)依賴于未知參數 θ。對于二分類和連續性比例數據最常用的連接函數為logit連接,它可表示為 g( μ)= log{ μ/(1- μ)}。記
,且
對應第 i個個體。聯合密度函數為:




其中 p( y ij| b i)為單純形分布的密度, p( b i)為正態分布的密度。那么參數 β, σ 2和 θ的對數似然函數正比于

因此,積分掉隨機效應就得到 β與 θ的邊際對數似然函數:

其中

從增廣似然函數積分掉隨機效應得到的邊際對數似然函數往往沒有明確的解析表達式。為了對模型進行估計,Qiu,Song和Tan [16]針對廣義線性混合效應模型的近似擬似然函數方法(PQL/REML)做了一些推廣。這種方法在概念上是簡單的,數值上是穩定的,并且適用于任何維數的隨機效應。盡管這種近似推斷參數估計可能有偏差,但其算法速度常常很快。Qiu,Song和Tan [16]證明了這種估計偏差在使用四階拉普拉斯逼近時能夠減小到滿意的水平。
例2-4 為分析氣體冷卻數據,我們利用下面單純形混合效應模型(SMM):
logit( μ ij)= β 0+ b 0 i+ β 1log( t ij)+ β 2log 2( t ij)+ β 3 x ij,
其中隨機截距 b 0 i~ N(0, θ 0)。另外,我們也考慮包括隨機斜率 b 1 i~ N(0, θ 1)的如下模型:
logit( μ ij)= β 0+ b 0 i+ β 1log( t ij)+ β 2log 2( t ij)+( β 3+ b 1 i) x ij
其中 x ij為標準化氣體濃度協變量(取值為1、0或-1), t ij為時間協變量(手術后的天數)。我們利用校正的PQL方法得到 θ 0=0.26(0.19), θ 1=0.09(0.25)。結果表明,兩個方差參數無統計學意義,這意味著刻畫序列相關的參數可能過多,因此我們考慮簡單的隨機截距模型進行統計推斷,細節可參見Qiu,Song和Tan [16]。PQLs分析發現:氣體濃度水平 x ij和時間對數的平方log 2 t ij是有統計學意義的( p﹤0.05)。然而,如果只是對氣體容量做logit變換,再使用常規的線性混合效應模型分析,那么氣體的濃度并無統計學意義( p=0.14)。
第五節 統計實踐
這一節我們將探討統計實踐,特別是統計應用于生物醫學研究中的問題,并討論為什么需要一個適當的研究設計、嚴謹的分析和合理的推斷。統計應用于生物醫學研究常常遵循三個步驟:首先確定研究設計的性質,明確研究的問題;然后確定數據的類型(變量的測量尺度)和要比較的組數,從而形成一個完整的統計分析方案。
一、研究設計
一項研究最基本要做到設計優良,因為沒有什么統計方法能使設計不當的研究起死回生。一個研究可以是實驗性的,也可以是觀察性的。在實驗研究中,研究者給研究對象(如病人,動物或臨床觀測點)分配治療或干預,以確定該分配或治療是否有效。隨機化常被使用,其目的是得到對病人所有特征(如年齡或性別,是否接受治療這點除外)具有可比性的分組。如果感興趣的結局變量組間存在差異,那么研究者可以有信心認為這個治療或干預是有效的。另外,具有統計學意義并非意味有臨床意義(實際意義)。比如,對于糖尿病患者而言,改善22mg血糖或許沒什么意義。因此,在研究設計時確定一個有實際意義的差異是很重要的。舉個例子,臨床試驗設計必須要有足夠的功效(如80%)能夠檢測預先確定的具有實際意義的差異,同時樣本容量不能超過必要樣本容量。另一方面,在觀察研究中治療或干預的分配不受研究者控制。無論是實驗研究還是觀察研究都有局限性,這可由嚴格分層設計(Concato [17])解釋。一項研究也可設計成準實驗設計,此時實驗者可能很少或者不能控制治療的分配。我們除了要確定研究是實驗性的還是觀察性的之外,還要弄清數據收集是回顧性的還是前瞻性的,以及數據是在一個時點(截面的)還是多個時點(縱向的)獲得的,因為需要特定的統計方法刻畫相關和協方差結構,用于分析對同一個體重復測量而產生的相關觀測結果。
二、研究的問題
研究的問題要有重點、明確并且具體。在許多情況下,它很容易轉化成兩個統計假設——原假設與備擇假設。原假設是一個陳述,假定它是對的,直到出現充分的相反證據(即治療無效),而備擇假設代表研究者的興趣(即治療有效)。重要的是,在進行探索性數據分析與統計假設檢驗之前,都需要確定一個檢驗水平(α)。通常 p﹤0.05或 p﹤0.01被認為具有統計學意義, p﹤0.1被認為是有沾邊的統計學意義。一般來說,研究報告的置信度是與統計檢驗的水平連在一起的。研究者的興趣或要研究的問題是明確的,比如,刻畫變量間的相關性,評估不同實驗方法的測量值的一致性,檢測某一時點以及隨時間變化時不同組之間平均值的差異。在進行統計檢驗前明確研究假設是很重要的,這樣按照設計好的方案,研究人員就可以避免危及研究結論有效性的陷阱。同時,在某些情況下,沒有統計學意義與研究者特意尋找的統計學意義同樣重要。為了行之有效,統計學家需要與臨床醫生和醫學工作者一道緊密合作,以保證大家對分析結果達成共識。因此,除了嚴格的統計訓練,在生物醫學、合作研究經驗和溝通技巧的跨學科培訓也很重要。
隨著近來遺傳學與人口學數據的爆炸性增長,對研究問題缺乏清晰的理解對統計推斷造成了大量的混亂狀況。牢記研究的目的并運用恰當的統計模型是非常重要的。目前一個值得關注的問題是,研究的目的是探索性的還是為了預測?這在統計技術工具箱日益豐富的今天常被忽略。下面章節將詳細討論這個問題。
三、研究目標是探索性的還是預測性的
就本身的術語而言,探索性建模常用來描述一個變量和我們要尋找的與之相關的一些解釋變量之間的關系;只有因果因子發生在結局變量之前,才能建立一個因果關系的解釋。另一方面,預測性的建模是基于已有數據,得到統計模型,以預測新病人的未來結果(響應)。因此,探索性統計模型的功效不同于預測性統計模型的功效。
一般而言,統計建模是要尋找最簡單的模型,變量最少,數值上要穩定,還要容易推廣。臨床工作者在流行病學研究中趨向于包括盡可能多的混雜因素,即使這些因素沒有統計學意義,這會使得模型更依賴于給定的數據。這樣建模的優點是模型常常有好的擬合性,然而這會導致“過度擬合”,參數增多,標準誤增大,因為模型中變量越多,變異就越大。所以,如此構建的模型可能有很好的探索功效但是缺少預測能力。在醫學研究中,特別是在評估用于早期癌癥檢測的生物標志的診斷醫學中,重要的是構建一個預測法則,而不是描述或解釋數據間的關聯。
常用在流行病學研究中的(線性和非線性)回歸分析,經常將 R 2(決定系數)作為模型可解釋的方差百分比,它可度量模型的解釋能力。另一方面,相同的模型可用于其他目的。比如,考慮是否有某種疾病(如結腸癌)的logistic回歸概率模型,常用于診斷醫學(帶有預測目的)中的疾病分類。接受者特征曲線下的面積(AUC),也被稱為(Wilcoxon-Mann-Whitney檢驗中的)c-統計量或一致性概率,是模型預測性判別功效的一個好的概括性度量。為得到評判模型預測性能的無偏估計常要用到重抽樣技術。
探索性建模與預測性建模的本質區別很微妙但是很重要。最近,Shmueli [18]在這方面做過深入的探討,提出在構建模型與檢驗模型上兩者都很必要,只是分別扮演不同的角色而已,正如與解釋相關的不確定性本質上不同于與預測有關的不確定性(Helmer and Rescher [19])。例如,流行病學研究的趨勢是通過調整所有潛在的危險因素去評估關聯性,而另外一些人則致力于尋找生物標志,希望能用于預測病人未來的結局。統計上區別探索性建模與預測性建模的是偏差-方差的折中。正如Hastie,Tibshirani和Friedman [20](223頁)所示,預測誤差估計(EPE)可分解為噪音、偏差和估計方差,即
EPE=噪音+偏差+估計方差
其中噪音是隨機誤差(無論模型有多正確、估計有多精確),偏差是系統誤差,刻畫模型偏離給定數據的程度,而估計方差是用樣本估計模型引起的,即是真實模型擬合相似數據集的抽樣誤差。用一個簡單的比喻來解釋這個概念,假設有個并不標準的溫度計,那么它測量人的體溫常常(系統地)會高1度,這個系統誤差就是噪音。再假設無論某人發高熱或體溫正常,都有一個溫度計(真實模型)能準確測量體溫:一個溫度計(模型A)對于體溫較低的人表現良好(偏差較小),另一個溫度計(模型B)對于體溫較高的人表現較好(偏差較小)。盡管模型A與B的偏差都小,但是其中只有一個用于預測,因為事先并不知道人的體溫是多少。模型A或B與真實模型之間的差異就是估計方差。上面的等式揭示了探索能力與預測能力的不同之處,其中探索能力用偏差表示,可由給定的數據得到,而預測能力用估計方差表示,需要未來的數據評估。如果預測誤差估計(EPE)固定且噪音得到控制,那么減少偏差就會增加估計方差,反之亦然。因此,從探索目的得到的模型可能預測效果不好,為了預測,避免過度擬合很關鍵。在分析大量基因數據時,觀測的數據量常比預測變量要少很多,因此過度擬合容易發生。受此問題驅動,出現了很多模型與方法。例如,典則回歸或統計學習模型(Hastie等 [20])已經成為分析這類問題的有效工具。最近,在高維數據情形,也有一些模型直接最大化接受者工作特征曲線(ROC)的效用函數(如ROC曲線下的面積), F-度量值,以及靈敏度與特異度的線性組合(見Liu等 [21,22])。
四、數據分布,正態性假設與穩健性
一旦明確了研究設計與要研究的問題,并且將它準確地轉化為統計假設,我們就要處理數據了。如前所述,需要評估數據的分布以確保要進行的統計檢驗的假設條件完全滿足。如果檢驗需要的假設條件不滿足,可以選擇別的檢驗方法。例如,參數統計方法,如 t檢驗,方差分析(ANOVA)以及Pearson相關系數,都需要滿足下面三個假設:正態性、獨立性與方差齊性;然而非參數方法,如Wilcoxon秩和檢驗,Krushal-Wallis檢驗以及Spearman相關系數,都與分布無關,并且不需要嚴格的假設條件。一般而言,參數方法更加敏感,功效更高,但需要較大的樣本量,而非參數方法較不敏感,功效較低。
如果參數方法涉及到正態反應變量,那么常常需要評估模型的正態性假設。一旦不滿足正態性,則需要進行一些適當的變量變換,如對數變換,平方根變換或逆變換。也可以對反應變量 Y進行Box-Cox變換(Box and Cox [23]): T( Y)=( Y λ-1)/ λ,其中 λ為最優功效系數。自然對數變換是它的特例: λ=0。
例2-5 本例是一個隨機化縱向臨床試驗,結局變量是與健康有關的生存質量,如最新診斷出的患有慢性粒細胞白血病患者在12個月內的、由癌癥治療生物反應調節劑功能評估(Bacik J等 [24])度量的試驗結果指數(TOI)。病人在試驗開始被隨機分配到兩個治療組中。TOI得分介于0(最差)到108(最好)之間,每個病人測量多達九次:包括試驗開始以及1、2、3、4、5、6、9和12月后。研究的基本目的是確定兩組TOI得分均值是否隨著時間的推移有差異。主要協變量包括治療組(Ⅰ和Ⅱ),年齡(均值為中心)和性別。在開始接受隨機分配的1049位病人中,共有979位確認有初始TOI得分,他們包含在Du等 [25]的分析報告中。TOI的分布呈正偏,需要用平方根轉換進行校正,因為這種情況對數轉換不夠充分,而逆變換則有點矯枉過正。另外,為要假設僅在開始觀測到的總體分布與那些后面觀測的(6月或9月后)相同,需要在6月與9月后評估病人特征(性別和年齡)的相似性,而這些特征都進行了矯正,無論模型有沒有包含結局變量TOI。鑒于刪失數據超過10%,需要評估刪失對于健康相關的生存質量的估計的影響。已有聯合模型來分析具有正態假設隨機效應的縱向TOI(混合效應)和中途退出時間。
盡管混合效應模型被廣泛用于分析縱向和相關數據,其中隨機效應常假設為高斯分布,檢驗這種聯合模型的基本假設及其穩健性是很重要的。一些作者已經考慮了線性混合效應模型中的有關問題(Zhang and Davidian [26])。最近,McCulloch和Neuhaus [27]基于實例、理論計算以及隨機模擬考慮了用于聚類或縱向數據分析的廣義線性混合效應模型廣泛應用中的穩健性,包括預測、協變量效應、隨機效應的預測以及隨機效應方差的估計。他們認為:對隨機效應分布錯誤指定的擔憂通常是瞎操心,因為①靈敏度僅限于估計方面,而這往往不是感興趣的;②考慮的情況過于極端;③發表的結果實際上并不支持錯誤指定的敏感性。
Du等 [25]用一個更加復雜的聯合模型來考慮事件發生用的時間和生存質量縱向結局數據,并研究了隨機效應方面的穩健性。我們利用關于生存和縱向結局的聯合模型理論與方法、通過縱向測量次數的分布來評估縱向測量有多密集(Hsieh等 [28];Huang,Stefanski和Davidian [29])。給定數據TOIs以及固定效應參數值,隨機效應的后驗分布在每個個體縱向測量次數適當大時近似正態。由于隨機效應結構和縱向測量(TOIs)都只通過此后驗密度與生存參數相關,當縱向測量比較密集時,最大似然估計(MLE)就會穩健,即使關于生存時間(或中途退出時間)和縱向數據的聯合模型中的隨機效應偏離正態性假設;另一方面,如果縱向測量比較稀疏(如,每個個體只有3個觀察值),那么最大似然估計可能會偏差很大(Hsie等 [28])。表2-2顯示如何通過縱向測量次數的分布來考察縱向測量的密集程度。
表2-2 縱向測量次數的分布

由表2-2可知,超過90%的病人至少觀測4次(或以上);中位數大于8次。分組考慮,大約第一組56.5%和第二組39.2%的人員所有九次測量都有TOI得分。因此,就隨機效應的正態性假設而言,縱向TOI測量次數確實不少,最大似然估計是相當穩健的。
對于二分類結局進行logistic回歸,連續性協變量需要滿足logit線性假設(Hosmer和Lemshow [30])。Box-Tidwell變換可用來檢驗logit中的線性性,即只要在模型中添加x*log(x)這樣一個變量,然后考察其參數估計的統計學意義:這項參數估計有意義就表明非線性。
五、選擇正確的統計檢驗
在統計實踐中,針對涉及的問題選擇正確的統計檢驗顯然至關重要。在這一節,我們進行一些總結并給出實例去說明該如何根據研究設計與問題選擇正確的統計檢驗;同時特別關注不同教科書中零亂、有時還被忽略的一些方法。
1.評估關聯
兩個變量的相關性:
當去評估對同一個體進行觀測得到的兩個變量(如成像參數和生物標志物)的關系時,常用的方法是將數據呈現在散點圖上以確定這兩變量間的相關性,其中解釋變量放在x軸,而反應變量放在y軸上。散點圖是確定變量間整體關系的有用工具,一旦線性關系被確定,研究者就可以進一步計算相關系數,度量相關強度及方向,并作出擬合數據最優的最小二乘回歸直線。
兩次觀測的一致性:
Bland和Altman [31]指出,高度相關并非意味著好的一致性。Bland-Altman給出了對同一個體的兩次觀測(或兩個方法、兩個評分者)一致性的評估方法:作一個散點圖,橫坐標是兩次觀測的平均值,縱坐標是兩次觀測的差值,然后畫出一致性的范圍,其中界限由平均差值±1.96倍的差值的標準差。對連續型變量,可用組內相關系數(ICC)定量刻畫一致性,而對分類變量,常用Kappa統計量去度量。
疾病與暴露的關系:
在控制混雜因素去評估暴露與疾病的關系時,常用Mantel-Hantzel檢驗,當然也有一些更高級的方法(Kosinski和Flanders [32])。
2.檢測組間差異
橫截面觀測:
對于兩組的比較,在正態性、獨立性、方差齊性的假設條件下可用 t檢驗,否則要用Wilcoxon秩和檢驗;對于三組或者更多組的比較,在上述提到的假設下可用方差分析(ANOVA),否則用Kruskall-Wallis檢驗。
縱向或重復觀測:
在縱向研究中,每個個體都是重復測量的,因此獨立性假設(觀測之間相互獨立,單個個體的觀測值不受其他個體的影響)不滿足,需要利用特定的方差-協方差結構去解釋個體內的相關性。另外,組間差異不僅表現為每個時點上的差異,而且也表現為重復觀測下(或縱向觀測下隨時間的)結局變量的整個變化。對于匹配數據(即每個個體測量兩次),連續性變量在滿足正態性假設的前提下可使用配對 t檢驗,二分類變量(即是與否)可利用McNemar檢驗。當多于兩個觀測時,可使用重復測量的方差分析(ANOVA),或基于針對特定個體推斷的似然估計的廣義混合效應模型,或基于在總體水平推斷的廣義估計方程(GEE)的總體平均模型(Diggle等 [10])。特別地,對于涉及雙胞胎(同卵與異卵)的研究,除GEE方法外還可使用經典的結構方程模型,例如關于壓力性尿失禁與非遺傳因素關系的流行病學研究(Nguyen et al [33])。在經典的雙胞胎模型中,同卵與異卵雙胞胎在表現型方差的差異可以歸結于三個基本因素:可加的遺傳性影響,公共環境影響以及特定個體或獨特的環境因素,假設為:同卵雙胞胎有相同的可加遺傳變異,而異卵雙胞胎僅僅共享一半的可加遺傳變異,并且兩組雙胞胎都有相同的公共環境變異(Neale等 [34,35])。
六、建立模型
建模的第一步需要進行全面、仔細的單因素分析,以識別任何感興趣的模式、關系和關聯,然后建立多元主效應模型:剛開始包含所有單因素分析中 p值小于0.25的協變量,然后利用常用的逐步法、向后法或向前法,以0.05為閾值對候選變量進行篩選和剔除。多元模型中每個協變量回歸系數的大小需要與單因素分析的結果對比,來決定重要的變量是否不應該剔除。一旦多元主效應模型確定,就要檢驗有臨床意義的交互項和評估潛在的混雜因素。注意混雜因素僅僅能被評估而不能被檢驗,且應該與結局變量和危險因素相關聯;一個協變量常常可作為混雜因素,如果校正它使得主要危險因素的影響幅度改變10%甚至更多,例如在校正年齡之后,吸煙對出生體重輕的回歸系數從0.5變為0.56(變化﹥10%),因此,年齡被認為是一個混雜因素,應該包含在最終的多元模型中,即使某些情況下年齡可能不具有統計學意義(即 p﹥0.05)。最后,在做統計推斷之前,需要評估模型的充分性和擬合程度。
高維遺傳數據的觀測次數通常遠遠大于變量/特征數,為分析這些高維遺傳數據,已有大量文獻使用統計學習方法,如LASSO特征選擇(Hastie等 [20])。這些方法同樣適用于經典的數據分析模型,因此可以使用基于LASSO的變量選擇方法代替向前或向后篩選法。
此外,模型的建立通常是連貫的。在考查了數據及其分布之后,就需要更加復雜的模型進行適當的數據分析,同時重要的是用一種容易理解的方式(如圖示)將結果向更廣大的讀者有效地展現出來。為闡明這一點,我們在例6中繼續分析Du等 [25]的模型建立和數據分析過程。
例2-6 續例5。建立的第一個模型是通常的隨機缺失(MAR)機制下的混合效應模型:
,其中第 i個個體在時間 j處測量, i=1,…, n且 j=1,…,
表示固定效應, W 1 i( s ij)表示個體的隨機效應,且
。此外,建立一個混合模型(pattern-mixture model),其中個體根據缺失的模式分為若干組,而缺失模式作為一個個體間的變量被包含在縱向模型中。此模型與第一個模型一樣,只是包括了中途退出(dropout)狀態這個協變量。因為無12月的TOI的模式是稀疏的,我們把所有這些模式都當作是中途退出的,中間斷斷續續缺失的觀測都作為隨機缺失,并將那些可在最后12月得到TOI觀測值的定義為完成者(Hedeker和Gibbons [36])。因為中途退出時間(time-to-dropout)可能很重要,所以我們構建一個參數分享聯合模型,其中縱向TOI與中途退出時間過程同時建模。對中途退出時間建立指數回歸模型,其中 t(月)時刻的危險率為:
( t))。這里
同樣表示固定效應, W 2 i( s ij)表示個體隨機效應。這兩個模型的連結函數是 W 1 i( s)= U 0 i+ U 1 i s和 W 2 i( t)= γ 0 U 0 i+ γ 1 U 1 i,其中 γ 0與 γ 1分別為刻畫這兩個模型關聯度的隨機截距與斜率。為簡單起見,不考慮截距與斜率之間的相關性,因為其大小可以忽略( r﹤0.013)。從研究開始日期到跟蹤完成者12月之間的時間定義為缺失時間。對于中途退出者,從研究開始日期到最后一次HRQL收集時間與計劃最后一次訪問時間的中點之間的時間定義為中途退出時間。協變量包括年齡、性別、時間的四次多項式,而隨機截距與斜率的方差-協方差并非結構化。在聯合模型中,中途退出時間假設服從指數分布。聯合模型揭示:除了研究開始外的每次訪問,組間差異都有統計學意義( p﹤0.001)。參數估計(詳見Du等 [25])類似于單獨的縱向與生存子模型:兩者間的關聯參數有統計學意義( p=0.039),意味著TOI的斜率與中途退出的危險率之間呈負相關,因此不能忽略中途退出。研究表明,當縱向數據中存在不可忽略的缺失數據時,聯合模型是量化中途退出與結局之間關系的有效手段。而且,對有不可忽略缺失的復雜縱向數據而言,這也是檢測模型對基本假設敏感程度的好方法。





致謝
作者感謝他的同事Victor Santana博士和Clinton Stewart博士為本章的例題提供了寶貴的數據,Peter Song博士在連續型比例數據方面的合作以及Kevin Liu和Catherine Billups所做的數據分析。我們還要感謝美國國家癌癥研究中心的資助(編號為P30 CA21765)以及美國,黎巴嫩,敘利亞相關慈善機構(ALSAC)的幫助。
附錄
均值(位置參數)為 μ∈(0,1)和離散參數為 σ 2﹥0的單純形分布的密度(Jorgensen [7])為:
p( y; μ, σ 2)=[2 πσ 2{ y(1- y)} 3] -1 / 2exp{- d( y; μ)/(2 σ 2)}, y∈(0,1)
其中

應用該分布的好處是:單純形分布是一個分散模型(Jorgensen [7]),其中反應變量的密度函數式為:
a( y; σ 2)exp{- d( y; μ)/(2 σ 2)}, y∈(0,1)
該分散模型的密度看起來像正態分布(詳見Jorgensen [7]),并且它還包括了一大類定義在(0,1)范圍內的分布,從高度偏峰的分布到非常平坦的分布。這種分散模型要比基于指數族分布的廣義線性模型更為一般。
參考文獻
1.Moore DS,McCabe GP. Introduction to the Practice of Statistics. New York,1989.
2.Altman DG. Practical Statistics for Medical Research. Chapman and Hall,London,1991.
3.Gleser LJ. The importance of assessing measurement reliability in multivariate regression. Journal of the American Statistical Association,1994,87:696-707.
4.Carroll R,Ruppert D,Stefanski LA. Measurement Error in Nonlinear Models. Chapman and Hall,London,1995.
5.Chen Y,Dougherty ER,Bittner ML. Ratio-based decisions and the quantitative analysis of cDNA microarrays. Nature Genetics Supplement,1997,21:33-37.
6.Newton MA,Kendziorski CM,Richmond CS,et al. On differential variability of expression ratios:Improving statistical inference about gene expression changes from microarray data. Journal of Computational Biology,2001,8(1):37-52.
7.Jorgenson B. Dispersion Models Chapman and Hall/CRC,London,1997.
8.Song P,Tan M. Marginal model for continuous proportional data. Biometrics,2000,56:496-502.
9.Tan M. Using dispersion models in molecular pharmacology and genetics. Invited Presentation at Joint Statistical Meetings,Atlanta,GA,August 7,2001.
10.Diggle P,Heagerty P,Liang KY,et al. Analysis of Longitudinal Data. Oxford University Press,UK,2002.
11.Qu Y,Tan M. Analysis of clustered ordinal data with subclusters via a Bayesian hierarchical model. Communications in Statistics A: Theory & Method,1998,27:1461-1475.
12.Tan M,Qu Y,Mascha E,et al. A Bayesian hierarchical model for multi-level repeated ordinal Data:Analysis of oral practice examinations in a large anesthesiology training program. Statistics in Medicine,1999,18:1983-1992.
13.Myers BD,Nelson RG,Tan M,et al. Progression of overt nephropathy in non-insulin-dependent diabetes. Kidney International,1995,47:1781-1789.
14.Nelson RG,Bennett PH,Beck GJ,et al. Development and progression of renal disease in Pima Indians with non-insulin-dependent diabetes mellitus. New England Journal of Medicine,1996,335:1636-1642.
15.Song P,Qiu Z,Tan M. Modeling heterogeneous dispersion in marginal simplex models for continuous longitudinal proportional data. Biometrical Journal,2004,46:540-553.
16.Qiu Z,Song PXK,Tan M. Simplex Mixed-Effects Models for Longitudinal Proportional Data. Scandinavia Journal of Statistics,2008,35:577-596.
17.Concato J. Observational Versus Experimental Studies:What’s the Evidence for a Hierarchy? Neuro RX: The Journal of the American Society for Experimental Neuro Therapeutics,2004,1:341-347.
18.Shmueli G. To Explain or to Predict? Statistical Science,2010,25(3):289-310.
19.Helmer O,Rescher N. On the epistemology of the inexact sciences. Manag. Sci,1959,5:25-52.
20.Hastie T,Tibshirani R,Friedman JH. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Springer,New York,2009.
21.Liu Z,Tan M. ROC based utility function maximization for feature selection and classification with application to high dimensional protease data. Biometrics,2008,64:1155-1161.
22.Liu Z,Chen X,Gartenhaus RB,et al. Survival Prediction and Gene Identification with Penalized Global AUC Maximization. Journal of Computational Biology,2009,16(12):1661-1670.
23.Box GEP,Cox DR. An analysis of transformations. Journal of the Royal Statistical Society Series B,1964,26:211-252.
24.Bacik J,Mazumdar M,Murphy BA,et al. The functional assessment of cancer therapy-BRM(FACT-BRM):a new tool for the assessment of quality of life in patients treated with biologic response modifiers. Qual Life Res,2004,13(1):137-154.
25.Du H,Hahn EA,Cella D. The impact of missing data on estimation of health-related quality of life outcomes:an analysis of a randomized longitudinal clinical trial. Health Services and Outcomes Research Methodology,2011,11:134-144.
26.Zhang D,Davidian M. Linear mixed models with flexible distributions of random effects for longitudinal data. Biometrics,2001,57:795-802.
27.McCulloch CE,Neuhaus JM. Misspecifying the Shape of a Random Effects Distribution:Why Getting It Wrong May Not Matter. Statistics Science,2011,26(3):358-402.
28.Hsieh F,Tseng YK,Wang JL. Joint modeling of survival and longitudinal data:likelihood approach revisited. Biometrics,2006,62:1037-1043.
29.Huang X,Stefanski LA,Davidian M. Latent-model robustness in joint models for a primary endpoint and a longitudinal process. Biometrics,2009,65:719-727.
30.Hosmer D,Lemeshow S. Applied Logistic Regression. 2 nd ed. John Wiley & Sons,INC. New York,2000.
31.Bland JM,Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. The Lancet,1986,1(8476):307-310.
32.Kosinski AS,Flanders WD. Evaluating the exposure and disease relationship with adjustment for different types of exposure misclassification:a regression approach. Stat Med,1999,18(20):2795-2808.
33.Nguyen A,Sarit A,Sand P,et al. Nongenetic factors associated with stress urinary incontinence. American Journal of Obstetrics & Gynecology,2011,117(2 Pt 1):251-255.
34.Neale MC,Boker SM,Xie G,et al. Mx:statistical modeling. 6th ed. Richmond(VA):Department of Psychiatry,Medical College of Virginia,2002.
35.Neale MC,Maes HM. Methodology for genetics studies of twins and families. Dordrecht(The Netherlands):Kluwer Academic,2004.
36.Hedeker D,Gibbons RD. Application of random-effects pattern-mixture models for missing data in longitudinal studies. Psychol Methods,1997,2(1):64-78.
主要作者簡介
杜鴻雁,現為美國NorthShore醫療健康系統臨床信息研究中心統計專家、美國統計協會認證專家(PStat?)。1993年畢業于華西醫科大學,2003年獲伊利諾伊大學芝加哥分校生物統計學碩士學位。在與健康結果相關的研究設計與數據分析方面具有豐富的合作研究經驗,曾與癌癥、糖尿病、慢性腎病、艾滋病以及其他復雜疾病的研究者進行過廣泛的合作,在Cancer Research,Stroke,Clinical Trials,Statistics in Medicine and Health Services and Outcomes Research Methodology等發表論文70余篇。研究興趣包括帶不可忽略缺失數據的縱向模型、生物標記物評價(ROC等)以及預后建模。
譚銘博士,現為喬治城大學生物信息學、生物數學和生物統計系主任、教授。1990年獲普度大學統計學博士學位。曾任Cleveland診所生物統計和流行病學系助理教授、副教授,St. Jude兒童研究醫院生物統計系準會員/教授及此醫院的實體惡性腫瘤治療計劃的生物統計學主任,馬里蘭大學醫學院生物統計學教授及生物信息學、生物統計學主任,馬里蘭大學Greenebaum癌癥中心生物統計學主任。他是Biometrics和Statistics in Medicine副主編,美國FDA(食品和藥物管理局)顧問委員會會員及多個美國國立衛生研究院專家組成員,美國統計協會資深會員。目前研究興趣包括多種藥物組合的設計與分析、生物標記物及診斷方法的評估、自適應臨床試驗設計、縱向數據的隨機效應與貝葉斯模型。