- 人工智能與計算生物的未來
- (美)布賴恩·希爾布什
- 4570字
- 2025-05-07 12:11:33
生物數據的急速積累
全球醫學界和學術界能夠以如此驚人的速度響應新冠疫情大流行,正是信息革命的直接成果。互聯網和無線通信基礎設施讓海量病毒基因組測序數據與流行病學數據可以在世界范圍內實時共享,數字技術使得公共健康信息的日常搜集、整合與傳播成為可能。在私有藥廠,深度依賴計算功能的藥物研發管線利用人工智能算法和生物科技創新讓化合物篩選、臨床前檢驗和臨床開發流程加速。無論是政府、工業界還是其他組織支持的國際合作科研項目,幾乎每一分努力都受益于云計算資源。堆成山的數據幫助我們更好地理解了疾病的本質,為快速研發有效的治療與反制手段提供了巨大的希望。
生物醫學研究與藥物研發領域的從業者幾乎立即對疫情做出了響應。這不僅是因為他們察覺到了時間的緊迫,也因為他們發現了其中潛在的商機與實現科學突破的可能。在數以千計的實驗室里,研究員利用病毒基因組序列、病毒與宿主的相互作用以及健康醫療系統中的數據驗證著新的治療思路。
在疫情早期,研究成果的大量發布形成了前所未有的知識寶庫,medRxiv和bioRxiv平臺上發表了超過5萬篇與病毒有關的早期研究,使得我們能夠及時瀏覽有關病毒研究的方方面面:從病毒復制機制的生物學與臨床研究,到用于測試疫苗及其他療法的復雜跨國臨床試驗,不一而足。可惜的是,我們無法及時審核并驗證這些研究思路、治療藥物與重要公共政策。它們中很多都由于不夠成熟而最終走向失敗,或淪為了陰謀論的素材。技術只能幫助我們走到這里,而新冠疫情告訴我們,科學也有其局限性。
在2020年新冠疫情初期,基因組數據的發布對病毒追蹤極為重要。但可能更為重要的是,它使得我們可以為基于基因組的診斷、疫苗和藥物開發策略制訂科學計劃。通過將測序儀產生的包含數億核苷酸(即我們熟悉的A、C、G和T,代表構成DNA的化學基礎)的雜亂數據轉換為字節,計算生物學家搭建出了一個包含病毒完整基因組的約3萬個核苷酸長的“組裝體”。從這里起步,研究人員在基因組上劃定邊界,“繪制”出了線性分布在基因組上的每個基因。
組裝片段并確定序列身份都依賴于將序列片段與生物序列數據庫中的已知基因組進行比對。通過設計好的算法,我們可以找到與拭子或液體樣本中的短序列一致或高度相似的數據庫匹配。這使我們可以快速了解采集到的生物材料中包含哪種或哪些生物體。為了表征并分類病毒基因組,我們需要將重新組裝的DNA序列與通用數據庫進行比較。這個通用數據庫中包含了數萬種已知細菌物種、數千種病毒和其他一系列奇特、致病基因序列的完整基因組。
利用基因組流行病學追蹤新型冠狀病毒
我們能夠從基因組序列中獲取的遠不止病原體的身份信息。基因組信息可以進一步被應用在4個主要領域:流行病學、診斷學、疫苗設計與治療學(包括抗病毒藥物和其他模態的藥物)。病毒學家、流行病學家和公共衛生體系已經對各類病毒序列進行了幾十年的搜集與分析,而直到最近,隨著二代測序和第三代測序(納米孔或單分子測序)的興起,我們才將流行病感染病例中病原體基因組測序的完成速度從幾個月的時間壓縮到了幾天。這種基于基因組的流行病學方法與隨之而來的大量數據催生了全新的全球疫情暴發追蹤方法。
基因組流行病學的基礎是,借助參考基因組,我們可以檢測出單堿基分辨率尺度上的序列改變。通過與生物體所在家族、群落甚至種群內的基因組進行比較,我們可以獲知生物體基因組每一個位點上的差異信息。這一方法能夠成功應用于流行病學的關鍵是,病毒(尤其是RNA病毒)在宿主體內進行易錯復制[12]時會留下可追溯的分子軌跡,我們可以通過檢測堿基突變識別出這些軌跡。每當一個被散布到環境中的新的病毒粒子開始感染下一任宿主時,遺傳物質復制周期就會再次開始。以新型冠狀病毒為例,它的RNA基因組是通過一種叫作依賴于RNA的RNA聚合酶(抗病毒藥物瑞德昔韋的靶點蛋白)復制的。這種酶工作時導致的復制錯誤,或者叫作堿基突變,會被保留并傳遞給后代。這些突變可以是“中性”的,不會影響病毒蛋白的功能或病毒的生存能力;然而,有些突變可能會隨機為病毒引入生存優勢,并因此得到廣泛傳播。還有一些有害突變可能會使病毒喪失復制能力,或者損害病毒的其他關鍵功能,因此在進化過程中丟失了。另一些被暫時保留的突變則可能會加速病毒的消亡。通過在時間尺度上追蹤這些突變的印記,我們便可以得到病毒的家族樹;利用測序信息構建病毒遺傳家族樹就是基因組流行病學的研究內容。隨著時間的流逝,隨機產生的突變在基因組上累積,形成了家族樹不同分支的獨特標記——只有基因組測序數據才能提供這種高精度的印記信息。
在2013—2016年的埃博拉大流行中,我們第一次利用高通量測序對埃博拉病毒進行了基因組監測。[13]這是流行病學歷史上的一次里程碑事件——首次利用基因組監測手段解析病毒傳染路徑,規劃疫情響應方案。同時,我們還能追蹤疫情發展中病原體的進化方向。正是這次對抗埃博拉的經驗促使科學界建立起了許多信息技術體系,以用于共享基因組數據、研發基因組流行病學分析工具。GISAID(全球共享流感數據倡議組織)便是其中的早期成果之一。[14]研究人員可以通過這一網站共享基因組序列,追蹤流感病毒的遺傳進化方向。另一項努力則與冠狀病毒相關。Nextstrain.org是西雅圖弗雷德·哈欽森癌癥研究中心的特雷弗·貝德福德團隊與瑞士巴塞爾大學生物中心的理查德·內爾團隊共同建立的病原體檢測開源平臺。[15]在2017年開放科學獎的支持下,這一平臺成功上線,并在新冠疫情中及時發揮了作用。
2020年1月,新冠病毒測序結果剛剛出爐,數字化加持的全球資源平臺便開始了行動。亞洲、歐洲、北美和其他各個國家的測序結果也被上傳到了GISAID網站。貝德福德和同事們則開始利用涌入的基因組序列重構病毒在全球傳播的路徑。其他地區的研究者也在追蹤疫情的傳播,利用基因組數據監測毒株是否發生了改變。在疫情剛剛暴發的幾個月里,大量的基因組信息為我們揭露了病毒的重要特征。首先,為數不多的突變數目表明,新冠病毒感染近期才開始。和其他病毒相比,這種新型冠狀病毒變化更慢,動態分支更少。圖1—1展示了這棵新近出現的病毒進化樹。
在疫情全球蔓延的初始,我們還沒有準備好進行大規模的基因組分析與溯源工作,追蹤疫情傳播并不順利。舉例來說,來自加拿大、英國和澳大利亞的新冠患者的身上所攜帶的病毒具有相同或高度相似的基因組,這意味著他們之間有某種關聯;而流行病學專家在分析了這些病例的社會活動后,發現這些早期病例有著一個共同點:最近到訪過伊朗。沒有基因組學的幫助,我們幾乎沒有辦法定位到這樣的關聯。基因組監測也提供了美國西雅圖發生社區傳播的最早期證據:一個新冠患者檢測出了與從武漢回來的本地“零號病人”幾乎相同的病毒基因特征。[16]基因組流行病學工具的潛力在于,即使只有少量的基因組數據,我們也有可能對病毒的傳播進行密切監測,從而使得公共衛生專家不再需要制定高度嚴格的社會隔離標準——一種控制疫情的重要手段。最起碼,基因組數據能夠告訴政府新發感染來自外部輸入還是本地傳播。但是,新冠病毒的變異不夠迅速,沒有辦法支持我們準確地推算出傳播路徑(這一方法對艾滋病毒有效,因為艾滋病毒的每一次傳播都會產生獨特的基因型)。

圖1—1 北美新冠疫情暴發期間的基因組流行病學
注:進化樹展示了2019年12月至2020年3月新冠病毒感染個體體內828個病毒基因組間的關系。點表示個體,以圖例中的地理來源標記。進化樹是通過比較個體之間的病毒基因組序列生成的。突變會引入新的分支,垂直距離代表基因組之間的差異程度。處于同一水平線上的個體共享具有相同基因組的病毒,通過這種方法,這些病毒可以追溯到一個共同祖先。
在疫情暴發后的幾周之內,我們便破譯了傳染病病原體的基因組信息,這是前所未有的事情。數字時代的我們很難想象當初生物學家和臨床醫生如何抽絲剝繭,花費大量時間找出艾滋病等神秘疾病的病因。由于疾病病程復雜,再加上各種技術、醫學和社會觀念的限制,發現人類免疫缺陷病毒是艾滋病元兇的過程分外緩慢。從1981年美國正式確診第一例艾滋病患者,到1984年發現新的病毒——人類免疫缺陷病毒(最初命名為HTLV-III)[17],歷經了3年的深入研究。幸運的是,在那段時間,分子生物學工具已經初具規模,研究人員可以對基因進行分離、克隆,然后通過手工方法進行測序(見第四章)。但其他技術進步更加重要。例如,我們需要細胞培養技術來繁殖病毒,利用動物模型解析疾病發展過程。當時,最重要的突破是臨床研究人員發現了艾滋病的通用生物標志事件——患者體內某類T細胞(CD4+)的數目會嚴重下降。對我們理解艾滋病的過程而言,反轉錄病毒基因組序列的測定并不是其中的關鍵;測序過程直到病毒發現晚期才得以完成。
艾滋病大流行使人們認識到人畜共患病毒的存在及其帶來的全球性威脅。在艾滋病出現之前,醫學界的大多數人都認為,進入工業化社會后,外來病毒和鼠疫耶爾森菌(來自嚙齒動物攜帶的蚤)不會再構成威脅。美國最后一例天花病例記錄出現在1949年。借助全球疫苗接種計劃,天花病毒在20世紀70年代末滅絕。1979年,美國排名前五的傳染病分別是水痘(199 081例),沙門氏菌病(33 138例),甲型肝炎(30 407例),梅毒(24 874例)和乙型肝炎(15 452例)。[18]有效疫苗的問世遏制了這些疾病的傳播,并大大降低了許多危險的“兒童”疾病(包括麻疹、流行性腮腺炎、風疹和脊髓灰質炎)的發病率。然而,從動物傳播到人類的新發疾病仍在世界各地出現,可能在非洲、亞洲,也可能在其他任何地方。這些病毒的名字既讓人感到熟悉又令人感到害怕:漢坦病毒屬(1993年,美國西南部)、西尼羅病毒(1996年,羅馬尼亞;2002年,美國)、寨卡病毒(多次流行:2007年、2013年、2015年、2016年)和埃博拉病毒(幾內亞,2013—2016年)。到2018年,美國的傳染病形勢發生了巨大變化。在美國疾控中心的列表上,許多重點關注的病原體都具有動物宿主。其中,流感(禽類和豬)、冠狀病毒(蝙蝠、駱駝、鳥)和西尼羅病毒(蚊子)都位居前五。[19]
21世紀初,病原體檢測技術已經不再局限于簡單的聚合酶鏈反應和傳統的病毒學研究方法。2002—2003年,在嚴重急性呼吸綜合征出現,也就是第一次冠狀病毒疫情流行時,高通量測序儀器就已經投入使用了。當病毒分離完成,培養出的病毒粒子可以提取出足量的遺傳物質之后,自動測序儀結合基因組組裝算法在5個月內就拼接出了這種全新冠狀病毒的基因組(從2002年11月到2003年4月中旬,其中技術測序步驟僅需要31天)。[20]接著,2012年,人們發現一種新的冠狀病毒從駱駝遷到了人類。在這10年間,測序技術的水平實現了指數級的進步。二代測序用時3個月便測定了中東呼吸綜合征冠狀病毒(嚴重急性呼吸綜合征冠狀病毒的遠親)的基因組序列。[21]序列信息和分子診斷工具使我們能夠在病毒引起更廣泛的傳播之前就采取相應的行動。
僅僅幾個月之后,2012年12月,當幾內亞一個偏遠村莊出現埃博拉疫情時,DNA測序技術很快就派上了用場。[22]疫情暴發后,我們花了3周時間便從患者身上提取、恢復了病毒基因組序列。盡管基因組流行病學當時已經用于實時監測病毒在幸存者之間傳播和通過性行為傳播的過程,但如果我們更早獲取到了序列信息,就可以利用這些數據完成更多事情。最后,在新冠疫情過程中,從“病因未知”到確定元兇的精確分子特征,僅僅用了3天時間。盡管我們還需要花費更多時間學習、理解這一病毒,但基因組測序和計算方法已經為我們提供了對抗疫情所需的基本信息。挖掘出蘊藏在病毒遺傳物質——29 123個RNA核苷酸中的數據奧秘,即可引發一場搜尋救命藥物與疫苗的全球性努力。