- 人工智能與計算生物的未來
- (美)布賴恩·希爾布什
- 8087字
- 2025-05-07 12:11:33
生物研究的范式轉換:讓計算生物學成為可能
“那些認為‘科學等價于測量’的人,應該去達爾文的著作里找找數字和等式。”[23]
——戴維·休伯爾,《自傳中的神經科學歷史》
“實驗是科學對自然的提問,而測量是記錄自然的回答。”
——馬克斯·普朗克,《科學自傳與其他論文》
毫不夸張地說,生物學和物理學都曾長期與理論和數學格格不入。盡管前述兩個領域都高度依賴于實驗數據和觀察,但生物現象的復雜性使得那些描述基本原理的方程式毫無用武之地。自伽利略和科學革命以來,物理學成功建立起了一套預測框架,幫助人們精確而定量地理解自然法則:麥克斯韋方程組、愛因斯坦的E=mc2、牛頓運動定律……生物學是否有可能也在某個時刻轉變為一門定量科學,利用一系列方程從任何生物過程中做出預測?
毫無疑問,直到30年前,生物學家和大多數科學家都會堅定地給出否定的回答。進化論統一了生物學,而它完全建立在查爾斯·達爾文和阿爾弗雷德·拉塞爾·華萊士的觀察之上。格雷戈爾·孟德爾的遺傳定律更進一步,使用定量的實驗方法得出結論。在遺傳學領域,最接近于嚴格公式的是群體遺傳學的基本原理,即哈代-溫伯格平衡定律。這一定律表明,在非進化的大型群體中,等位基因和基因型的頻率將世代保持不變。當等位基因頻率已知且滿足某些特定條件時,哈代-溫伯格方程可以用于推算基因型頻率;而與平衡狀態的偏移可以用來度量遺傳變異。
在過去的70年里,人們一直在分子生物學的強大框架內研究遺傳學原理。我們已經詳盡闡釋了DNA復制、RNA轉錄和蛋白質翻譯(生物學的信息處理系統)的機制細節。目前尚不清楚的是,算法或方程式能否精確計算或描述,基因調控網絡如何控制極其復雜的細胞過程、構建神經系統、協調生物體的發育以及驅動物種進化。自近一個世紀以前克萊伯首次提出克萊伯定律[24]以來,人們已經圍繞生物系統的通用生長法則提出了許多假設與爭論。[25][26][27][28]我們觀察到,自然界的生物體遵守許多能量比例定律。因此,人們相信,我們有希望以嚴謹的方式提出新的生物調控與生物過程理論,從而為科學家們提供用于研究生物現象的預測框架。
隨著工具進步帶來實驗數據規模的指數級增長,新的計算方法為復雜科學的研究提供了可能,人們逐漸開始質疑數學無法描述生物系統的觀點。2000年,史蒂芬·霍金被問及,21世紀是否會成為生物學的黃金時代,就像20世紀的物理學一樣。霍金回答:“下一個世紀將是有關復雜性的世紀。”[29]處理復雜性問題的工具正是推動生物學成為真正的定量科學所需要的工具。
在信息革命發生的時候,能夠支持生物發現的大規模數據生產技術也同步問世,它們一同推動了生物學研究的范式轉變。其中的一個例子是現代DNA測序儀(例如圣迭戈基因組學公司因美納制造的HiSeq 4000)的誕生對生物學的改變。現代DNA測序儀的運作涉及復雜的化學與分子克隆過程,以及后期對數百萬個“合成測序法”反應結果的高分辨率圖像捕捉。它能夠在1.5天內產生1.5TB(太字節)的驚人數據,足以對6個人類基因組進行完整測序(其中每個基因組包含3×109個DNA堿基)。[30]當我們通過后續計算分析流程完成測序結果的組裝時,我們便得到了基于基因組序列的精確計算模板。我們可以將這些模板作為研究癌癥基因組、制造藥物以及設計疫苗的起點。
癌癥研究方法的轉變與癌癥研究中的計算
對比計算機時代前后癌癥研究的進展速度,我們就能發現范式轉變帶來的影響有多么廣泛。20世紀70年代,獨立科學家們通過病毒和細胞培養實驗在生物實驗室里發現了第一個致癌基因:通過一系列經典分子遺傳學實驗,彼得·迪斯貝格和彼得·沃格特在勞斯肉瘤病毒中發現了致癌基因src(肉瘤)的轉化DNA[31]。[32]10年之后,隨著重組DNA技術(分子克隆)和DNA測序技術的發展,人們才最終測定了src的基因序列與蛋白產物。在今天看來,這一過程緩慢到讓人難以想象。借助分子克隆技術,研究人員可以將含有外源基因的DNA從相應來源轉移到細菌或哺乳動物細胞內。20世紀70年代中期,我們才開發出分子克隆技術,并將之投入使用(見第四章)。
要了解src等致癌基因產物的生化性質以及癌癥背后的奧秘,我們需要利用許多煩瑣的方法來分離相應基因編碼的蛋白質,再對它們進行研究。1977年,若昂·布呂熱和雷·埃里克森首次成功使用RSV免疫兔的抗RSV血清捕獲蛋白質,也就是src的基因產物。[33]隨后,丹佛埃里克森研究組[34]成員、加州大學舊金山分校的邁克爾·畢曉普、哈羅德·瓦慕斯和其他同事[35]以及索爾克研究所的托尼·亨特[36]等人進行的生化實驗表明,src基因編碼了一種蛋白質酪氨酸激酶。
畢曉普和瓦慕斯的一個開創性發現解釋了病毒致癌基因的起源。當時,他們提出了一個假說:病毒中的致癌基因來源于正常細胞中負責生長調控的基因。我們是否有可能在人類或其他物種中找到與src具有親緣關系的蛋白(細胞同系物)?當病毒攜帶這些基因時,什么原因讓它們具有致癌性?通過放射性標記的DNA探針與分子雜交試驗,畢曉普和瓦慕斯發現幾種禽類的基因組中也包含src樣基因,它們能夠與病毒DNA復合或形成雜交體(注:勞斯肉瘤病毒具有RNA基因組,因此實驗前要先使用逆轉錄酶,即RNA依賴性的DNA聚合酶,將src RNA轉化為DNA)。[37]
20世紀80年代初,在DNA測序方法出現之后,畢曉普和瓦慕斯測定了病毒(包括勞斯肉瘤病毒及其近親禽類肉瘤病毒)、幾種禽類以及人類基因組中的src基因序列。[38][39]DNA序列分析證明,病毒致癌基因的確起源于細胞內的“原癌基因”。到1989年畢曉普和瓦慕斯因其在逆轉錄病毒和致癌基因方面的工作獲得諾貝爾獎時,分子技術和DNA測序已經幫助我們鑒定出了超過60種原癌基因。這些基因編碼的蛋白,大多數(包括src)的正常功能是通過信號通路或調控回路控制細胞生長與分化。對DNA序列的研究表明,癌癥確實是一種由基因上的改變(突變)引起的遺傳病。這種突變有可能是DNA堿基的增加或減少(插入或刪除),也有可能是一種被稱作點突變的單核苷酸改變(也稱作單核苷酸多態性或單核苷酸變異),最終導致蛋白氨基酸序列發生了變化。借助DNA測序技術,我們可以方便地找到這些導致遺傳“損傷”的突變。而像src這種基因,我們并未在人類癌癥樣本中發現它的突變形式;事實上,多份src基因導致的基因異常擴增或信號蛋白的過度表達是它導致癌癥的原因。
接著,2000年,歷經了一代人的研究之后,羅伯特·溫伯格和道格拉斯·哈納漢從過去數十年的觀察和實驗(包括對src基因的研究)中總結出了“癌癥標志物”的概念,并獲得了研究領域和醫學界的廣泛認可。[40]其中,最著名的兩類標志物是“存在激活的致癌基因”與“抑癌基因的失活或缺失”。有證據表明,治療各種癌癥的一種有效手段是使用“靶向治療”研制專門遏制致癌基因的藥物。20世紀80年代發現的致癌基因BCR-ABL為這一領域帶來了一項重大突破。[41]BCR-ABL是染色體易位導致的基因融合產物,也是慢性髓細胞性白血病的元兇。慢性髓細胞性白血病是一種罕見血癌,它的兩大誘因是細胞生長失控和細胞死亡信號通路(細胞凋亡)失控——它們也是兩種癌癥標志物。通過篩選靶向ABL癌基因的蛋白質酪氨酸激酶抑制劑,瑞士制藥巨頭諾華公司發現了化合物甲磺酸伊馬替尼。[42]后續研究發現,這一小分子也對其他蛋白質酪氨酸激酶(c-KIT和PDGFRα)具有活性。對于由這些基因中的突變引起的癌癥,甲磺酸伊馬替尼可能會延緩疾病的發展。2001年,諾華公司的甲磺酸伊馬替尼成為首個獲得美國食品藥品監督管理局批準的慢性髓細胞性白血病精準治療藥物。這一藥物在美國的商品名是格列衛。[43]
格列衛的出現將慢性髓細胞性白血病從一種致死疾病轉變為了慢性疾病。這一成功極大地推進了其他具有分子特異性的藥物的研究與開發。在格列衛被推向市場之際,第一個人類基因組序列測序結果于2001年問世(初稿于2001年發表;完整版于2003年發表),為藥物捕手們提供了大量潛在的新藥靶點。然而,人類基因組信息本身對癌癥研究幫助有限。如果沒有基因組學方法為我們揭示基因功能,增進我們對腫瘤生長調控過程的理解,癌癥研究就會停滯不前。在這一階段,科研人員仍然專注于單個基因,臨床醫生繼續通過解剖學手段觀察腫瘤(例如乳腺癌、肺癌或肝癌),沒有人關注癌癥間共有的潛在分子特征。
基因組學后來居上,引領癌癥研究進入了更加定量化與計算化的研究階段。2008年,大規模并行的二代測序技術已然成熟,華盛頓大學圣路易斯分校基因組中心的伊萊恩·馬迪斯和理查德·威爾遜在一項提交給美國國立衛生研究院的項目基金申請中提出對整個癌癥基因組進行測序。相比于在給定癌癥類型中針對單個基因進行假說檢驗,全面腫瘤測序將為我們提供一種客觀的、沒有預設立場的無偏方法,用于揭示癌癥中的分子變化。也可以說,這一過程是在尋找體細胞突變——在個體出生后發生于易患癌組織中的遺傳變化。馬迪斯和威爾遜認為,雖然正常人體基因組序列數據對癌癥研究幫助不大,但既然自動化DNA測序技術和信息學工具已經就位,那么他們可以嘗試開發一種新的研究方法,即腫瘤/正常細胞測序。基金審批人員卻有著不同的看法。他們強烈建議,與其耗資100萬美元進行大規模腫瘤DNA測序,不如繼續采取過去20年的傳統方法,對單個基因進行深入研究。
盡管基金申請并未獲得批準,但馬迪斯、威爾遜和基因組中心的同事們仍堅持利用因美納公司最新的基因分析儀器對一位急性髓系白血病患者進行了DNA測序。這篇具有歷史意義的論文發表在2008年的英國《自然》雜志上。首先,二代測序技術以驚人的準確性識別出了患者腫瘤組織與正常皮膚細胞基因組間的3 813 205個單核苷酸多態性位點。接著,借助計算分析工具,研究人員排除了自然發生的和非腫瘤特異的單核苷酸多態性位點,最終確定了8個獲得性體細胞突變,并對每一個突變位點進行了獨立驗證。他們在論文摘要的結尾重重駁斥了短視的基金審批人員:“通過研究,我們將全基因組測序技術發展成了一種無偏的癌癥起始基因發現方法。這些在過往研究中被忽略的基因也可能成為靶向療法的靶點。”[44]
在接下來的10年間,癌癥基因組圖譜[45]、國際癌癥基因組聯盟[46]等組織對數以千計的癌癥基因組進行了測序。與此同時,癌癥基因組研究催生出了一類新的產業:利用已知DNA突變、癌癥特異性基因表達譜的分子特征以及細胞表面抗原進行癌癥診斷。基因組測序(包括全基因組測序、全外顯子組測序和靶向測序)帶來了令人難以想象的數據資源,包括ClinVar、dbGAP和COSMIC(癌癥體細胞突變目錄)[47][48]在內的許多數據庫因此興起。COSMIC始建于2004年,它是一個基于文獻的科學數據庫,旨在搜集所有已發表的腫瘤樣本和突變數據。第一年,通過桑格研究所的相關項目,COSMIC整理收錄了66 634個腫瘤樣本和10 647個相關突變。到2018年,COSMIC的數據量大幅增長,達到了140萬個樣本和600萬個突變。通過分析龐大的數據樣本,研究人員發現223個關鍵癌癥基因驅動了幾乎全部200種人類癌癥。[49]
與這些研究進展矛盾的是,對于大部分癌癥,我們仍然沒有辦法對相關基因或信號通路進行針對性治療。制藥業在癌癥新療法研發方面取得的成果非常有限,全球大多數癌癥藥物發現計劃的成功率僅徘徊在10%左右(如果我們計算流失率,那么臨床試驗階段的失敗率高達90%)。制藥業高管一致認為,要想提升候選藥物在臨床管線中的通過率,為面臨嚴酷化療和手術的無數癌癥患者增加生存機會,腫瘤藥物研發還需要解決幾個關鍵問題。在人們看到了免疫療法在數種癌癥中展現出的奇跡般的效果后,大量投資就會立刻涌入免疫療法與嵌合抗原受體T細胞免疫治療領域。與此同時,經典的基于靶點的小分子藥物設計則亟待由功能基因組學提供新的思路。為什么候選藥物沒有實現預想的治療效果?為了回答這個問題,我們需要首先確認藥物針對的靶點蛋白(即從腫瘤中發現的致癌驅動因子)是否為理想的目標,并思考如何才能提升抗癌藥物的臨床療效。例如,大多數藥物篩選試驗是在癌細胞系中進行的,我們是否理解這些細胞模型在分子層面的特征?我們應該像分析原發性腫瘤一樣對這些細胞系進行全面的分子特征分析。另外,人們還發現,雖然有些藥物無法觀測到積極的臨床統計效果,但這些藥物確實能夠結合靶點蛋白,并且特定的基因突變譜更容易響應這些藥物。這就是個性化精準醫療的雛形——“在正確的時間為正確的患者提供正確的藥物”,以獲得更好的結果。人們期待,通過進一步洞察基因組、表觀基因組和臨床數據,能夠更好地判斷患者對特定藥物的響應,從而促使抗癌化合物研發走向更加量身定制的方向。
一支來自英國的頂尖科學團隊率先做出了嘗試。他們利用數據驅動的方法整合了功能基因組分析與藥物篩選過程,并借助機器學習挖掘出了能夠預測藥物反應的癌細胞特征。[50]這個由馬修·加尼特研究組開發的框架高度依賴于定量方法。他們借助計算機算法從11 289個人類患者腫瘤樣本的基因組數據中找到了數千個具有臨床意義的癌癥功能事件。這些事件大致可以分為突變、擴增和缺失,以及基因啟動子高甲基化——這是癌癥表觀遺傳修飾改變的重要特征。利用這些多組學數據與基因表達譜分析(轉錄物組學),加尼特研究組評估了超過1 000種源自腫瘤的癌細胞系,建立了這些細胞系的狀態矩陣,確定了基于多組學的“脫水”版癌癥功能事件。通過對比原發性腫瘤與細胞系,加尼特研究組發現了大量跨細胞系存在的重要癌癥相關突變,這為我們利用這些分子特征明晰的體外模型進行藥物敏感性篩選奠定了基礎。
接下來,研究人員通過一項大規模藥物基因組學分析實驗測定了265種化合物對不同細胞系的細胞活力的影響,從超過20萬條劑量—反應曲線中產生了超過100萬個數據點(每個化合物對應5個數據點)。研究人員將所有實驗得到的數據(IC50值)輸入了基于統計學和機器學習的混合定量框架,最終輸出結果便可以提示我們哪種藥物更適用于哪種癌癥,以及什么樣的數據類型對于藥物敏感性具有最佳預測效果。藥理學模型揭示了大量具有癌癥特異性的藥物—基因組相互作用,而機器學習模型表明,基因組特征(癌癥驅動突變和基因擴增)最適合用于敏感性預測。對某些特定類型的癌癥而言,DNA甲基化數據相較于基因表達數據能夠進一步提升模型表現。藥理學模型為我們提供了可以用于臨床測試的潛在新療法,具有直接的臨床意義;而機器學習模型告訴我們,癌癥臨床診斷應側重于檢測潛在的DNA改變,而非其他腫瘤分子特征(如DNA甲基化與基因表達)。如果要研究單個基因如何影響癌癥表型或藥物反應,基于CRISPR-Cas9的基因組尺度篩選是更加有效的方式。[51]這種分子遺傳學方法是另一種全面客觀、沒有預設立場的無偏研究手段。借助CRISPR-Cas9技術,我們可以用極其精確的方式激活、突變或沉默(敲除)單個基因。當早期研究聚焦于特定基因和通路時,這種基因組水平的篩選能夠檢驗基因組中的每一個基因,以及基因組中可能存在的其他功能性元件。通過在細胞系模型中利用CRISPR系統進行功能失去型篩選,我們可以快速發現那些能夠促進癌癥轉化、維持腫瘤性質的關鍵藥物靶點蛋白和細胞通路,這讓CRISPR技術變得頗具影響力。而算法則用于處理實驗中產生的信息并確定癌癥藥物靶點的優先級。
類似的研究思路使得計算癌癥研究逐漸成為熱點。在一項研究中,貝漢及其同事設計了基因組水平的CRISPR-Cas9篩選實驗,通過細胞活力測試找出了對癌細胞存活至關重要的基因。[52]他們對324個癌細胞系中的18 006個基因進行了定向敲除,并通過超過900組實驗測定了每個基因的“適應值”(這里的適應值與癌細胞存活能力相關)。最終,每個細胞系有1 459個處于中位的基因進行了適應值測量。這種體量的結果已經大大超過了傳統研究方法的能力極限。因此,貝漢等人設計了一種叫作ADaM的計算機方法,對所有測定了適應值的基因進行了分類。如果一個基因在全部13種癌癥類型(比如乳腺癌、胰腺癌、中樞神經系統腫瘤)中的12種里都被指定為低適應值基因,那么它就被稱作“泛癌核心低適應值基因”,而其他基因則是“癌癥特異型低適應值基因”。研究人員一共找到了533個泛癌核心低適應值基因。其中的399個是早前報道過的關鍵基因,還有123個是新發現的關鍵基因,它們參與了癌細胞的必需功能。而在癌癥特異型低適應值基因組中,研究人員又發現了866個關鍵基因。后續分析從這兩組基因中一共找出了628個可能的新藥物靶點,其中74%的靶點僅針對某一種或兩種特定癌癥,這是非常了不起的分析結果。這項由計算驅動的研究,無論是規模還是成果都令人贊嘆不已。它給癌癥藥物設計這一靶點貧乏的領域提供了進一步探索的工具及與治療方法相關的假說,以利用體外或體內癌癥模型進行測試與檢驗。
結構生物學與基因組學
數據科學和計算方法是結構生物學的驅動力。要想更加高效合理地搜尋關鍵靶點蛋白或改變復雜細胞通路,藥物研發人員就需要依賴基因組學與結構生物學共同提供的關鍵數據。在身在北京的中國科學家上傳新型冠狀病毒基因組數據之后,數小時內,世界各地的研究人員就可以通過云計算工具分析序列、設計實驗,并在實驗室合成相關基因和蛋白質來進行進一步研究了。
當科學家談論蛋白質結構時,他們通常指的是二級或三級結構——它們都是蛋白質在自然界中折疊的結果。所有蛋白質均由一串氨基酸類化合物組成,每種氨基酸都屬于20種通用氨基酸中的一種。每種蛋白質獨特的三維結構決定了它的生物學功能。蛋白質一級結構只是氨基酸的有序排列,二級結構則由一級序列的模式決定。一級結構中的重復序列就是一種常見模式,它可以形成螺旋,或各樣片層形式的二級結構。
要獲得三維結構數據,我們必須找到對應基因并生產相關蛋白質。首先,我們利用標準分子生物學方法擴增并克隆基因片段。然后,我們將克隆材料插入細菌基因組(有時也用酵母或其他細胞)并進行菌落培養,這些菌落就會生產重組蛋白。純化并冷凍保存的蛋白或送入冷凍電子顯微鏡,或在結晶后通過X射線晶體學方法進行結構觀察。
2020年還沒過去幾個月,研究人員就已經從基因組序列中解析出了新型冠狀病毒3個重要蛋白的原子尺度三維結構。這3個蛋白是制藥和疫苗設計的關鍵靶點:刺突糖蛋白、主蛋白酶和依賴于RNA的RNA聚合酶。盡管新型冠狀病毒基因組是迄今為止人們發現的最大的RNA病毒基因組之一,但它一共僅編碼不到30種蛋白質。相比之下,大腸桿菌(存在于人體微生物組中)這樣的原核生物基因組擁有大約5 000個基因,而蒼蠅、馬和人類等生物體包含1.5萬~3萬個蛋白質編碼基因。
在利用冷凍電子顯微鏡技術獲取并處理了7 994幅顯微影片后,我們獲得了分辨率高達2.9埃(水分子的直徑是2.75埃)的新型冠狀病毒依賴于RNA的RNA聚合酶復合物(包括nsp7蛋白和nsp8蛋白)圖像。[53]這一結構基礎不僅幫助我們理解了瑞德西韋這種抑制劑分子與復合物結合的原理,還啟發我們進行了更多候選抗病毒藥物的設計。刺突糖蛋白是病毒結合宿主細胞表面受體ACE2所必需的病毒表面蛋白。[54]類似地,刺突糖蛋白的三聚體構象結構(見圖1—2)也為我們帶來了藥物設計的靈感。還有主蛋白酶結構——一種蛋白水解加工酶,它的作用是從較長的病毒多蛋白序列中切割和釋放成熟蛋白片段,對于病毒不可或缺。[55]在未來幾個月里,為了推動新冠藥物研發,我們將會解析出更多高分辨率的藥物結合蛋白結構域以及抗原抗體復合物結構。

圖1—2 新型冠狀病毒刺突糖蛋白結構[56]
如何利用純計算的方法,從線性一維序列中預測出蛋白質三維結構,是結構生物學的圣杯級問題。在我們能夠利用一個服務器集群中的數千個計算節點來運行蛋白質折疊算法之前,人們便已經進行了一系列嘗試。例如,華盛頓大學的Folding@home項目。這一項目起始于2000年,由斯坦福大學維賈伊·潘德實驗室啟動。他們以招募志愿者的方式,利用志愿者個人電腦里的CPU(中央處理器)來進行分布式計算。[57]在過去的20多年里,潘德實驗室發表了上百篇論文,也利用新型冠狀病毒基因組預測了大量高質量結構。DeepMind公司(2015年被谷歌收購)的團隊則搭建了AlphaFold模型,首次發布了使用深度學習模型預測蛋白質結構的工作成果。[58]這一成果最令人贊嘆的一點是,他們的算法可以不借助同源模板對一級結構建模。AlphaFold的核心是卷積神經網絡,它以蛋白質數據庫中的結構作為訓練數據,學習預測蛋白質殘基對的碳原子之間的距離。
DeepMind在網站上宣稱,“無模板”或從頭計算的自由建模方法可以預測新型冠狀病毒的部分蛋白結構。[59]大量計算研究組正在通過一系列創新方法嘗試更加準確的三維結構預測,DeepMind和Folding@home只是其中的縮影。每年,CASP(國際最知名的蛋白質結構建模預測比賽)都會吸引50~100支團隊參與。在自由建模這個類別中,AlphaFold在CASP13上的表現遠超大眾預期,在每年的進展曲線上留下了一個陡峭的轉折。隨著疫苗和治療開發走上制藥領域的中心舞臺,計算機生成的分子結構或將對全球公共衛生產生重大影響。