官术网_书友最值得收藏!

第3章 《早期基因組》:零號患者

“今天我們正在學習上帝創造生命時所用的語言。”

——比爾·克林頓,美國前總統

“我們有51%的基因與酵母相同,98%的基因與黑猩猩相同。基因并非人類和其他生物的主要區別。”

——湯姆·莎士比亞博士,英國紐卡斯爾大學

林恩·貝洛米察覺出有些事情很不對勁。林恩來自加州海岸風景秀麗的大阿羅約市。2011年8月,她生下一個漂亮的男嬰,取名帕克。起初一切似乎都很正常,但幾個星期后,她開始心生疑慮。大多數嬰兒很快就能學會的事情,帕克學起來卻很困難,比如喝奶和睡覺。他每晚只睡幾個小時,而且總是哭鬧。2012年3月,帕克6個月大,已經發育遲緩了很多——他并沒有像這個年齡段的大多數孩子一樣,對周圍的事物表現出好奇,也不會翻身,更別提坐起來了。為此,林恩先后帶帕克咨詢了兒童發育專家、眼科醫生、腦科醫生和遺傳學家。更糟糕的是,帕克9個月大的時候出現了規律性癲癇。盡管醫生為帕克做了許多檢查和數十項測試,包括很疼的抽血,但始終沒能弄清問題所在。林恩回憶說:“我們不斷地去約診各類專家,始終在路上,但總感覺有些病急亂投醫,毫無針對性可言。”[1]月月復年年,帕克一家就這樣煎熬著。

2016年,我們第一次見到林恩和五歲的帕克,他被轉診到我們斯坦福大學的未確診疾病中心。該中心是美國疾病偵探網絡的一部分,其宗旨是解決醫學領域最具挑戰性的病例。很多時候,我們的成功來自分析一個家族的基因組,因為這些基因組中含有至關重要的DNA指令,能幫助我們研究細胞和各個系統。于是,2016年6月28日,我們從帕克身上抽取了血液,以便提取其白細胞中的DNA,列清楚其基因組中的每一個堿基。當然,我們也檢測了其父母的DNA。

三個月后,10月4日那天,遺傳咨詢師克洛伊·羅伊特和埃利·布林布爾打電話告訴林恩,他們發現帕克身上有一種基因突變,這種突變似乎既不是從她那里遺傳來的,也不是從帕克父親那里遺傳來的。帕克身上出現的是一種全新的基因突變,這種突變似乎破壞了一個名為FOXG1的基因。[2]而且,帕克和其他在這個基因上發生破壞性變異的患者有著非常相似的健康問題。這一定就是病因所在。自五年前發現帕克有發育問題以來,這是林恩第一次對病因有了初步了解。她立即在臉書(Facebook)上創建了一個群組,聚集世界各地患有FOXG1綜合征的家庭(據最新統計,該群組現有650名家長)。而且,了解了帕克的病因后,我們帶他去看了一位運動障礙專家,這位專家立即調整了帕克的藥物治療方案,顯著緩解了其癥狀。林恩最近告訴我:“他還是會偶爾癲癇發作,但現在已經沒那么頻繁了。雖然仍需定期去看醫生,但他很樂觀、很快樂。”

帕克和他的父母對未來抱有很大希望,因為現在他們可以和世界各地的醫生、科學家以及數以百計的患者家庭并肩作戰,互相分享經驗,交流見解,期待著有朝一日能攻克這種疾病。科學家對基因組的研究讓我們對它的理解有了長足的進步,也深刻影響了我們檢測和治療人類疾病的方式。如果沒有他們過去幾十年在基因組研究方面的努力以及獲得的進展,我們的未來將截然不同。這些突破性進展還要從2009年說起。

· · ·

那是很普通的一天,早會結束后,我沒去吃午飯,而是去了斯蒂芬·奎克的辦公室,他是斯坦福大學的物理學教授,也是一名生物工程師,后來我們成了很好的朋友。斯蒂芬以其在微流體領域的開創性研究成果而聞名。他發明了帶有開關的微型生物電路板,這種電路板類似于鐵路上的站點,可以將細胞或分子引導到特定目的地,然后對其進行分析。我和斯蒂芬當時正準備在斯坦福大學為遺傳學領域的教員舉辦一個研討會。斯蒂芬·奎克的辦公室在斯坦福大學的一棟以詹姆斯·H.克拉克的名字命名的大樓里。克拉克是一位電氣工程師,也是美國硅圖公司和美國網景公司的創始人。克拉克研究中心大樓由英國著名建筑師諾曼·福斯特設計,其外形像腎臟,外墻由玻璃構成,有著流暢的紅色線條,到了晚上,燈火通明,看上去就像一艘外星飛船降落在校園中央。在某種程度上,好像確實可以這么說,因為修建這座大樓的目的就是孵化一個新的學科——生物工程學,即生物學和工程學相結合的交叉學科。大樓坐落在醫學院和工程學院之間,距離斯坦福醫院也很近。大樓周圍種了棕櫚樹,在加州藍天和陽光的映襯下,看上去很是美麗。路過大樓時,你可以透過窗戶看到一排排燈光明亮的實驗臺,上面放著工程學的實驗工具,旁邊是分子生物學的濕法工作臺,以及正在用移液管做雜交試驗的機器人。大樓房間編號奇怪、復雜,如果你足夠幸運的話,或許可以在白天找到斯蒂芬位于三樓的辦公室。

斯蒂芬先后就讀于斯坦福大學和牛津大學,是著名的物理學教授,也是一位杰出的反傳統主義者。他學識淵博,不修邊幅,完美契合當時人們心目中大學教授的形象。在斯蒂芬的辦公室里,雜亂無章的學術期刊堆積如山,鋪滿了每個角落,就像他那裝滿知識的大腦一樣。他弓著腰坐在中間,不停地敲擊鍵盤,創造新的知識。即使在人才匯聚的大學校園里,斯蒂芬也很突出。我那天去是為了討論我們即將舉辦的一個研討會,這個研討會計劃把不同大學的人類遺傳學家聚集在一起,但我們最終并沒有討論這個話題。

“來看看這個。”他說。我在成堆的學術期刊中找了個地方坐下,隨后他招手示意我過去看他的電腦屏幕。起初我不知道他具體要我看什么,只見他打開一個網頁瀏覽器,屏幕上顯示出一張表格,表格頂部寫著“Trait-o-matic[3]”。[4]這是早期網站上一種沒有格式的簡陋表格,外觀并不好看,但是吸引我的并不是表格的外觀,而是里面的內容。表格中有很多列數據,包括基因名稱、基因符號,以及腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)、胞嘧啶(C)四種構成基因基本單位的物質。

“這是什么?”我問道。

他接下來的回答對我們倆的研究都產生了顛覆性影響,這是個具有里程碑意義的時刻。他以其標志性的陳述語氣據實以告,這聽起來既低調樸實又顛覆常規:

“這是我的基因組。”

· · ·

那是2009年初,全世界范圍內做過基因組測序的人屈指可數,每一個基因組都被按測序通量排列,或者按測序成本降序排列。美國能源部和國立衛生研究院為人類基因組計劃投入了30億美元。[5]盡管人們通過一次次努力極大地降低了測序成本,但測序費用仍然令人望而卻步。克雷格·文特爾是一個喜歡嘗試新事物的企業家,為了成為人類基因組測序的第一人,他參加了一項公共基因組計劃,花費了大約1億美元對自己做了基因組測序。[6]2008年,一位姓名不詳的中國人也花費了大約200萬美元進行基因組測序。[7]詹姆斯·沃森曾與弗朗西斯·克里克共同發現了DNA的雙螺旋結構(兩人后來與莫里斯·威爾金斯共同獲得諾貝爾獎),并與羅莎琳德·富蘭克林一起揭示了DNA結構。詹姆斯·沃森也在2008年初通過貝勒醫學院的一個研究團隊進行了基因組測序,這次費用相對較低,花了大概100萬美元。[8]每一次基因組測序都需要數百名科學家工作數千小時,付出大量時間和精力。2009年,斯蒂芬與博士后學者諾瑪·內夫和博士生德米特里·普什卡廖夫合作,在自己的實驗室里用自己發明的技術對其本人的基因組進行了測序,只花了4萬美元,耗時一個星期。[9]

我對實驗室和科室的測序流程都了然于心。我們會把患者的血樣送去做DNA測序,希望通過這種醫學基因檢測找出其患遺傳性心臟病的病因。有5~10個基因與患者心臟狀況有直接聯系,而這些檢測能確定構成這些基因的堿基字母(A、T、G、C),從而找出引發疾病的罪魁禍首(通常是由于其中某個堿基字母發生了變化)。當時,對這5~10個基因進行測序的成本為5000美元左右,需要2~4個月才能拿到結果。因為當時的基因與疾病匹配鑒定技術還處于發展的早期階段,所以這項檢測結果的準確率也只有三分之一左右。這就是我當時的境況。想象一下,我們或許可以接觸到人類的整個基因組:不是5個,不是500個,不是5000個,而是整整20000個基因,還有基因與基因之間另外98%的基因組……這是一個非常令人吃驚的數字。

當時,隨著基因組測序成本急劇下降,我們中的一些人開始懷疑,是否有一天患者會在走進我們的辦公室時,手中“緊緊握著自己的基因組”(他們可能真的已經拿到了基因組測序結果,又或者我們可以馬上對其進行測序)。在硅谷,我們喜歡把一切事物和計算機做比較,但喜歡將測序成本和計算機成本迅速下降做比較的,不僅僅是我們這些舊金山灣區的人。科學家普遍將測序成本的下降與摩爾定律進行比較。戈登·摩爾是灣區土生土長的物理學家,他和羅伯特(“鮑勃”)·諾伊斯為集成電路的發展奠定了基礎,創辦了硅谷極具影響力的半導體公司——英特爾。在1965年的一篇關于科技快速進步的文章中,戈登·摩爾曾提到集成電路上可容納的晶體管數量幾乎每18個月就能翻一番,這意味著每隔一年,處理器的價格也會隨之減半。不過他后來認為可能每隔兩年翻一番比較現實,但無論如何,這個“定律”已經成了科技快速進步的代名詞。[10]人們普遍發現,基因測序的價格也在以同樣驚人的速度下降,至少2008年之前是這樣,當時測序成本的下降速度連摩爾定律都望塵莫及。美國國家人類基因組研究所發布的一張斷崖式下降的圖表充分說明了這一點。[11]我很喜歡這張圖表,和許多基因組研究者一樣,我經常在展示中用到它。但我很快就找到了一個更具體、更能引起共鳴的方法來說明這種價格下降趨勢。阿瑟頓位于硅谷中心,是億萬富翁的聚集地。當時,我的通勤路線會經過阿瑟頓附近的一個法拉利—瑪莎拉蒂車行。等紅綠燈時,我常常會瞟一眼那些車。有一天,我在等紅燈時簡單算了算,基因測序成本在人類基因組工作草圖案(即初步粗略繪成的人類基因組圖譜)公布后的八年里大幅下降,如果車行里法拉利價格的下降幅度也這么大,那么其售價將從35萬美元跌至不到40美分。40美分的法拉利!價格降幅幾乎達到百萬級。這似乎史無前例。所以,我把這個想法也加到了要展示的幻燈片上。有時候,人們告訴我這樣的解釋更令他們印象深刻。

不可否認,2009年斯蒂芬做基因組測序的成本降到了4萬美元,但讓患者自愿到診所來進行基因組測序似乎仍然是一種荒謬的未來主義設想,就像我會擁有一輛法拉利一樣荒謬。但這種未來主義的設想是創造性思維的重要推動力,我們難道不應該開始為那天的到來做準備嗎?是的,我們將面臨計算能力上的挑戰和巨大的知識鴻溝,但是,如果我們能成功解碼基因組,而不僅僅是測序;如果我們能完全理解這本書,而不僅僅是閱讀;如果我們能把數據轉化為知識,并將其應用在臨床患者身上,那實際效果會如何呢?

在斯蒂芬的辦公室里,他問了我關于各種基因的問題。他指著屏幕上自己的DNA堿基字母與參考序列中不同的地方(我們將在第6章中討論參考序列及其來源),問道:“你看到什么認識的東西了嗎?”我快速瀏覽了一遍,注意到一個我非常熟悉的基因:心肌肌球蛋白結合蛋白C。這個基因編碼的一種蛋白質是心臟正常運作的重要組成部分。多年來,科學家一直沒能弄明白其真正的功能,但現在我們知道,這個基因的變異體是遺傳性心臟病——肥厚型心肌病(一種與心力衰竭和猝死相關的疾病)最常見的病因。這就是斯蒂芬所指的其基因組中的那個基因變異體。這種變異可能會危及生命。所以,作為一名心臟病專家,我很自然地開始詢問其身體狀況:“你有哪里不適嗎?有什么癥狀嗎?胸痛嗎?呼吸急促嗎?心悸嗎?”那一刻,我不再是一個走進同事辦公室的科學家,而是一個與患者交流的醫生,是一個極為不同的調查員,在探查一個非常私人的真相。斯蒂芬沒有任何此類癥狀,也沒有任何不適,我松了一口氣。

所以,我把注意力轉向了他的家族病史。家族病史對于不同的醫生來說意義也不一樣。對某些醫生來說,家族病史像一個回答是或否的勾選框:“家族中沒有什么疾病史,是嗎?”好的,下一個問題。但是,對于遺傳學家或罕見疾病診斷專家來說,家族病史是一個充滿治療線索的寶庫,需要仔細地研究、拆解、檢查和解構。他們對待家族病史就像夏洛克·福爾摩斯對待犯罪現場一樣:從每一個角度細致入微地檢查家族病史情況,詳細詢問患者,然后反思并研究。然而,很少有人真正了解自己的家族病史。你現在也可以自己試著列一張家族成員所患疾病的清單,把每種疾病患病親屬的名字和他們首次確診時的年齡逐一對應起來。這并不容易。我問斯蒂芬有沒有家族病史,他和大多數患者一樣,很爽快地回答:“沒有,沒有家族病史。”然后,他回想了一下過往,就像是在柜子的另一端翻閱積滿灰塵的文件似的,隨即說道:“等等,我爸爸心臟有點兒問題,心律方面的問題,室性……”

“心動過速?”我提出這個問題時并不希望得到肯定的回答,但也本能地做出了最壞的打算(這是醫生的習慣)。室性心動過速是一種心律異常現象,可能發生在肥厚型心肌病患者身上。

“嗯,好像是這個。”

這樣一來,我在好奇的同時又多了幾分擔憂。因為室性心動過速患者心臟的上腔和下腔會出現快速且不協調的心跳節律,這種危險的節律可能導致大腦供血不足,而流向大腦的血量太低會導致人失去意識或直接猝死。這是一種讓大多數醫生感到恐懼的心跳節律,因為一旦發作,患者幾乎都會被送去急診。接診此類患者的醫生也要加快腳步,爭分奪秒地趕去搶救。“室性心動過速”這個名字本身聽起來似乎就帶有一種短促刺耳的感覺,讓人聯想到醫院心電監護儀上斷斷續續、毫無規律的心電圖。這個名字就好像是在大聲呼喊“立即搶救!”。它發作迅速,令人膽寒,有時甚至會一擊致命。

回想一下,我和斯蒂芬見面是想討論關于組織遺傳學研討會的事,但這位世界著名的科學家告訴我,他父親可能患有室性心動過速——一種與猝死有關的疾病。作為一個專門研究引起猝死的遺傳性心臟病的專家,我就坐在這兒盯著他基因組里與肥厚型心肌病有關聯的一個特定基因變異體看。肥厚型心肌病具有遺傳性,并且可能導致猝死。“那么,你家有沒有人猝死過?”我問道。這個問題能提供極為重要的診斷線索。對于內科醫生來說,此類問題及其后續回答就像外科手術工具對于外科醫生一樣重要。每個外科醫生都有其最喜歡的手術工具,有些工具甚至是專門定制的。這樣的工具用起來很順手,手感也恰到好處。外科醫生知道如何使用這些工具,知道如何用它們進行切割,也知道一刀下去器官會有什么反應。如果方向正確,在診斷疾病時我們問患者的這些問題就會像外科醫生的手術刀一樣好用。

“實際上……我堂兄的兒子前幾天突然去世了,沒有人知道原因。”

果然!

有線索了:家族中有人突然死去,且死因不明。最危險的紅色警報小旗在我面前招展,撲在我的臉上。我努力表現得不那么凝重,同時也在腦子里仔細推算斯蒂芬與其堂兄的兒子有相同基因情況的可能性,我問道:“哦,是嗎?他多大了?”

“唉,他才19歲,是一名空手道黑帶,我從來沒有想過他這輩子會有病倒的一天。”

他堂兄的兒子引起了我的注意。年輕人猝死最常見的原因是遺傳性心臟病,比如肥厚型心肌病。隨后我請斯蒂芬去科室,以便對其進行心臟檢查。此時他不僅是我的同事和朋友,還是我的患者。之后,我大腦飛轉,思考著我需要以多快的速度,以及在誰的幫助下,才能盡快篩查出斯蒂芬心臟的問題。我意識到他即將成為世界上首個走進醫生辦公室接受整個基因組檢查的患者。

是的,檢查整個基因組!

而做檢查的醫生就是我。

回到辦公室,我腦子里不停思考著各種可能和不可能的情況。我們到底該如何分析基因組呢?當時,解讀一個人的整個基因組這一想法聽起來似乎既不成熟,又很荒謬。當時人們對公開發布的為數不多的幾個基因組僅進行了統計分析——例如,總共發現了多少變異體存在單個堿基突變。貝勒醫學院的研究小組更進一步研究了詹姆斯·沃森的基因組中與醫學疾病相關的基因變異體。但是,目前我們認識的人當中,還沒有人想出一種可行的醫學方法來研究整個基因組,包括每個基因的變異體。

于是,我找到了我的一名心臟病學實習生馬修·惠勒,他現在是我的長期合作伙伴,也是我的朋友,是一位天賦異稟的臨床科學家。馬修來自紐約州北部,來斯坦福醫院之前曾在芝加哥實習。他高大魁梧,劃起船來沖勁十足,而且四肢靈活,滑雪玩得也比我好得多。事實上,我和馬修的會面是由我倆的妻子在她們劃船俱樂部的“船員”聚會上安排的,我倆一見如故,我們都熱衷于研究心臟病學、遺傳學、體育運動和遺傳性心血管疾病。那天,我們談到了一個宏偉的計劃——建立一個遺傳性心血管疾病中心。五年后,我們再次在我的辦公室(后來成了他的辦公室)見面時,我告訴了他斯蒂芬的事,包括斯蒂芬的基因組、家族病史,以及我從其辦公室回來后產生的一個想法:對人類的整個基因組進行臨床分析,包括每一個部分、每一個基因、每一個變異體。聽了我的想法后,馬修面無表情,只是輕描淡寫地小聲說了句話,似乎預示著我們將要踏上一場冒險之旅:

“很高興看到你仍懷有當初的雄心壯志。”

· · ·

人類基因組幾乎存在于身體的每一個細胞中。我說“幾乎”每一個細胞,是因為某些細胞,比如紅細胞,在成熟后會失去細胞核,這樣就可以有更多的空間運輸氧氣。大部分基因組在細胞的“內部保險庫”——細胞核中;還有一些在細胞的“動力工廠”——線粒體中。前面提到過,基因組由極長的DNA分子組成。單鏈DNA由一長串核苷酸分子組成,其中含有特殊的糖和一種堿基。堿基包括腺嘌呤、鳥嘌呤、胸腺嘧啶和胞嘧啶四種。每一個堿基的英文首字母——A、G、T、C——組成了多達60億個字母的遺傳密碼。組成基因組的DNA分子非常長,如果把一個細胞中的DNA提取出來,就會有兩米那么長,所以DNA需要被壓縮后才能進入細胞核。DNA在被壓縮時會被包裹在一種名為組蛋白的蛋白質周圍,變成一種被稱為染色質的致密結構,構成單個染色體。正常人的基因組有23對這樣的染色體:22對常規染色體和一對性染色體,性染色體由X和Y兩種染色體組合而成(女性有兩條X染色體,男性有一條X染色體和一條Y染色體)。有些疾病是由整條染色體復制引起的,例如,21-三體綜合征(也稱唐氏綜合征)就是因為有三條21號染色體。所以,簡單來說,基因組就像是存儲在人體幾乎每一個細胞里的一本食譜。基因組里面共有60億個字母,全都由A、T、G、C組成,并被壓縮成染色體存在于細胞中,正常人都有23對染色體。

這本食譜包含配料及其使用說明,這里所說的“配料”就是基因。基因的大小千差萬別:最小的只有8個字母,最大的有2473559個字母。[12]大多數基因有指導蛋白質合成的編碼。編碼過程中,DNA被轉錄成一種叫作核糖核酸(RNA)的相關分子,該分子將編碼作為信息帶出細胞核,然后以每組3個字母的方式翻譯成氨基酸——細胞蛋白質的組成部分。蛋白質可以是結構性的,將細胞固定在一起;也可以是運動性的,用來運輸自身或其他物質;還可以是酶,將一個分子轉化為另一個分子。控制蛋白質合成的基因大約有兩萬個,卻只占基因組的2%,那另外98%呢?多年來,基因組的這部分被稱為“垃圾DNA”,意味著沒有人真正知道其用途,現在看來這幾乎無法想象。我們曾天真地認為大自然為我們創造的基因組中絕大多數的基因毫無用處,但隨著我們對未知基因的了解越來越深入,這一想法也越來越荒謬可笑。事實證明,基因組中的“非編碼”部分對基因的功能起著至關重要的作用。而且,基因組的這一部分中大約一半的基因有與之相關的假基因——喪失正常功能的基因拷貝(或者,就像我們過去認為的那樣——現在我們知道假基因也可以調節其他基因,特別是其伴侶基因)。其中有一些看起來很像垃圾基因,基因組中有一半是由重復的DNA片段組成的,而我們至今仍未真正了解這些DNA片段。最后,也許最不可思議的是,人類基因組中大約有10%的基因實際上來自很久以前就嵌入我們基因組的病毒。下次你感冒時請記住這一點。

多年來,破譯像基因組這樣復雜的東西,似乎是不可能的事情。20世紀70年代,人們提出了兩種讀取DNA的方法,但最受歡迎的還是弗雷德里克·桑格發明的方法。桑格是一位英國生物化學家,他是僅有的四位獲得過兩次諾貝爾獎的人之一,并指導過兩位獲得諾貝爾獎的博士,但他常把自己形容為“一個在實驗室里瞎混的家伙”。[13]桑格測序法主導了基因測序數十年,至今仍然發揮著重要作用,這種方法主要是利用一種存在于我們細胞中的名為DNA聚合酶的物質,這種物質可以復制分子。

為了理解桑格測序法,我們要稍微講一點兒技術知識。[14]想象一下,我們有四個標有A、T、G、C的試管,在每個試管中都放入可以復制DNA的聚合酶、要復制的DNA分子本體,以及組成DNA的堿基(A、T、G、C)。現在,我們按照每個試管上的不同字母標簽,相應加入一種特殊堿基。該堿基具有特殊的放射性,會阻止DNA聚合酶進一步延長特定的DNA分子。[15]此外,重要的是,與常規的堿基數量相比,我們添加的堿基數量很少。現在想象一下,當每個試管中的DNA聚合酶發揮作用時,它會隨機與混合物中的堿基結合。當然,它與常規堿基結合的概率要比特殊堿基大,因為常規堿基的數量要多得多。然而,它也可能會和一個具有放射性的特殊堿基結合。這時,DNA聚合酶活動被中止,該分子被標記為具有放射性。但DNA聚合酶會繼續在試管的其他地方制造新的拷貝,就這樣循環往復。最終,這四個試管都含有不同長度的基因拷貝。“A”管含有標記為“A”的拷貝,“T”管含有標記為“T”的拷貝,以此類推。為了讀取序列,我們從每個試管中取出DNA,并利用電荷將分子按其長度沿凝膠板展開。然后,通過將凝膠曝光在X射線膠片上,我們可以檢測出放射性元素。結果發現這四張又薄又長的X射線膠片,每張看起來都像是一個缺少很多橫檔的梯子。然而,神奇的事情發生了。如果你把四張X射線膠片排列在一起,你會看到每個橫檔只在其中一張膠片中出現。而且出現橫檔的梯子的位置分別對應字母A、T、G或C。

如果你沒看懂,請繼續耐心地聽我說。這一費力的過程能被加速并商業化,主要得益于三個方面的進步:(1)發光分子取代放射性物質;(2)整個過程都可以在一個試管中完成;(3)我們可以根據電荷更快、更高效地分離分子。美國應用生物系統公司開發了一項新技術,該技術每次可以讀取大約500個字母長的基因拷貝,成為人類基因組計劃的主要測序方法。

第二個基因組測序也使用了同樣的技術,大約與人類基因組計劃同時完成,測定的是克雷格·文特爾的基因組序列。文特爾是一位科學家,成立了一家基因測序公司,并試圖申請人類基因專利。他曾向公共項目發起挑戰,并引發了一場軒然大波(最后被宣布為平局)。文特爾的基因組測序花費了大約1億美元(這意味著法拉利的價格從最初的35萬美元下降到了僅1.2萬美元)。

生物學上有許多這樣的突破,就像科幻小說一樣,即便沒有小說情節那么曲折離奇,后世描述時所用的語言也一定激動人心。這也許就是所謂“下一代”測序方法誕生的原因,也許不是。《星際迷航》里的讓—盧克·皮卡德也會為此感到驕傲。當然,由于“下一代”這個詞是相對的而非絕對的,自桑格測序法以來,幾乎所有的技術都一度被稱為“下一代”,這也許是不可避免的。的確有一個禮物在不斷啟發我們,這個禮物就是困惑。但所有“下一代”技術的共同點是,它們都能優化測序過程。以往的測序都專注于想要進行測序的那部分基因組,只對該部分進行多次拷貝,然后進行桑格測序。而下一代測序法是將整個基因組切成100個堿基左右的小片段,然后同時對所有片段進行測序。這使得我們可以對基因進行大規模測序,而且效率很高。

這樣的技術進步需要時間。直到7年后,另一個人的基因組才被公布。[16]2007年,澳大利亞遺傳學家理查德·吉布斯領導貝勒醫學院的一個團隊,利用由連續創業者喬納森·羅思伯格創立的454生命科學公司的一項技術[17],對諾貝爾獎得主詹姆斯·沃森的基因組進行了測序。因為454生命科學公司的技術能對很長的DNA片段進行測序(最初是400~500個堿基長的片段,后來更新為可以讀取長達1000個堿基的片段),所以羅氏集團于2007年購買了這項神秘的技術。根據貝勒醫學院團隊的分析,沃森的基因組顯示出他有患癌癥的傾向。沃森還特意修改了其公開的基因組信息,以掩蓋一種使其易患阿爾茨海默病的基因變異體,此事廣為人知。沃森的基因組測序耗時兩個月,花費了100萬美元。這意味著那輛法拉利打折到了116美元。

2008年底至2009年初,世界各地的不同研究團隊又接連公布了3個人(均匿名)的基因組信息。這些團隊用的都是因美納公司[18]的測序技術,過去10年的大部分時間里,該公司都是測序領域的主導力量。重要的是,這些測序的基因組開始更全面地代表世界的多樣性:一個是中國的漢族人,一個是韓國人,另一個是西非人。有一份出版物包含了一些對基因組的醫學注釋,甚至使用了我第一次在斯蒂芬的辦公室看到的Trait-o-matic軟件的早期版本。每項測序都用了6~8周的時間,成本為數十萬美元——相當于買下那輛法拉利跑車只要50美元。

斯蒂芬的基因組如此引人注目有幾個原因。首先,他發明了用于基因組測序的技術,并創建了赫利克斯公司,以便銷售其發明的儀器,該儀器被巧妙地命名為赫利克斯鏡。赫利克斯的測序技術與桑格和因美納公司的不同,因為它是對單個DNA分子進行測序的。熒光標記的DNA堿基被注入流通池,錨定靶序列DNA片段。當每一個堿基被DNA聚合酶——我們所說的復印機——整合到一個新的DNA鏈中時,一個非常靈敏的相機就會拍攝一張照片,有點兒像給一個小燈泡拍照。然后,前一個“小燈泡”被切斷后,下一個會跟著進入再拍一張照片,就這樣循環下去。當然,每張照片并不僅僅有一個燈泡。這臺相機一次可以讀取10億個燈泡,這意味著一周內就可以生成足夠的數據,覆蓋整個人類基因組,而成本僅為4萬美元。這也意味著,那輛法拉利將在一小時內組裝完畢,并且降價到6美元。

正如你所想象的那樣,所有這些“下一代”測序方法都輸出了數以百萬計的短基因組“單詞”,這些單詞與輸入測序儀的DNA小片段相對應。這些單詞并不是以特定的順序出現的,所以為了理解它們,需要把它們組織起來——就像拼圖一樣。這通常是通過一個計算機程序來完成的,該程序掃描人類參考序列(由人類基因組計劃創建的序列),并為每個新詞找到正確的位置。這樣的程序現在已經標準化了,但當時,我們必須從零開始編寫軟件。這份工作落到了斯蒂芬實驗室的德米特里·普什卡廖夫身上,他身材高挑,體形清瘦,是一名來自俄羅斯的研究生,無論是深夜編程,還是白天探險,都有著令人羨慕的耐力。德米特里編寫了最早期的一批程序,可以將DNA片段拼接成基因組,并找到它們與人類參考序列的不同之處。我們的工作正是從這些數據和算法開始的。

注釋

[1]林恩·貝洛米的音頻采訪,2020年2月2日。

[2]FOXG1綜合征.Genetics Home Reference. March 29,2020.

[3]一種開源工具,用于查找和分類全基因組變異的表型相關性。——譯者注。

[4]Trait-o-matic是由喬治·丘奇團隊的伍驍迪和亞歷山大·韋特—佐勞奈克開發的。這項工作是哈佛個人基因組計劃的一部分:The Harvard Personal Genome Project. March 29,2020.

[5]人類基因組計劃的資金在很多地方都有描述。我使用了這些估值:Genomics.Energy.gov. March 29,2020;Watson JD,Jordan E.The Human Genome Program at the National Institutes of Health.Genomics.1989;5(3):654-656.

[6]《人類基因組計劃》論文與個人項目一起發表:Lander ES,Linton LM,Birren B,et al.Initial sequencing and analysis of the human genome.Nature.2001;409(6822):860-921;Venter JC,Adams MD,Myers EW,et al.The sequence of the human genome.Science.2001;291(5507):1304-1351.

[7]一個亞洲人的測序:Wang J,Wang W,Li R,et al.The diploid genome sequence of an Asian individual.Nature.2008;456(7218):60-65.

[8]詹姆斯·沃森的測序:Wheeler DA,Srinivasan M,Egholm M,et al.The complete genome of an individual by massively parallel DNA sequencing.Nature.2008;452(7189):872-876.

[9]斯蒂芬·奎克的基因組序列首次公布:Pushkarev D,Neff NF,Quake SR.Single-molecule sequencing of an individual human genome.Nat Biotechnol.2009;27(9):847-850.

[10]摩爾定律50余年:Intel. March 29,2020;摩爾定律,計算機歷史博物館: March 29,2020.

[11]人類基因組測序的成本:Genome.gov. March 29,2020.

[12]最大和最小的基因這一說法取自如下教科書:Strachan T,Read AP.Human Molecular Genetics.New York:Garland;2018.doi:10.1201/9780429448362.Some other genome anatomy facts from:Platzer M.The human genome and its upcoming dynamics.Genome Dyn.2006;2:1-16.

[13]弗雷德里克·桑格的傳記細節來自:Berg P.Fred Sanger:A memorial tribute.Proc Natl Acad Sci USA.2014;111(3):883-884.

[14]桑格和下一代測序:Heather JM,Chain B.The sequence of sequencers:The history of sequen-cing DNA.Genomics.2016;107(1):1-8;Goodwin S,McPherson JD,McCombie WR.Coming of age:Ten years of next-generation sequencing technologies.Nat Rev Genet.2016;17(6):333-351.

另一種技術是沃爾特·吉爾伯特提出的,與桑格測序同一時期發明。吉爾伯特是哈佛大學的物理學家,后來成為生物化學家,與詹姆斯·沃森密切合作了很多年。其技術涉及對DNA的化學修飾和切割,但也使用了大量的放射性物質,因此,盡管最初在受歡迎程度上超過了桑格的技術,但很快就被改進后的桑格技術所取代。

[15]最早的下一代測序方法被稱為聚合酶克隆測序,由哈佛大學喬治·丘奇的實驗室發明。Shendure J,Porreca GJ,Reppas NB,et al.Accurate multiplex polony sequencing of an evolved bacterial genome.Science.2005;309(5741):1728-1732.

聚合酶克隆測序是由杰伊·申杜爾和格雷格·波瑞卡在羅伯·密特拉的工作基礎上率先進行的。詳見:Open Source Next Generation Sequencing Technology.Harvard Molecular Technologies. December 28,2016.

其名稱一部分取自DNA聚合酶(DNA polymerase)中的“polymerase”一詞,一部分取自“colonies”(菌落)一詞,菌落源自從數百萬個分子中讀取DNA序列的原理,每個分子都在油乳液(相同DNA分子的菌落)里的微小水滴中擴增。杰伊·申杜爾隨后開發了大量基因組技術;特別是,在與先驅德博拉·尼克森的一系列合作中,他是第一批將外顯子組測序應用于患者(四名患有相同遺傳綜合征的患者)的人之一。Ng SB,Turner EH,Robertson PD,et al.Targeted capture and massively parallel sequencing of 12 human exomes.Nature.2009;461(7261):272-276.Another early pioneer of exome sequencing was Richard “Rick” Lifton:Genetic diagnosis by whole exome capture and massively parallel DNA sequencing Proc Natl Acad Sci U S A.2009 Nov 10;106(45):19096-19101.

[16]關于前幾個基因組的論文中包括對成本和耗時的預估:Lander ES,Linton LM,Birren B,et al.Initial sequencing and analysis of the human genome.Nature.2001;409(6822):860-921;Venter JC,Adams MD,Myers EW,et al.The sequence of the human genome.Science.2001;291(5507):1304-1351;Wang J,Wang W,Li R,et al.The diploid genome sequence of an Asian individual.Nature.2008;456(7218):60-65;Wheeler DA,Srinivasan M,Egholm M,et al.The complete genome of an individual by massively parallel DNA sequencing.Nature.2008;452(7189):872-876;Bentley DR,Balasubramanian S,Swerdlow HP,et al.Accurate whole human genome sequencing using reversible terminator chemistry.Nature.2008;456(7218):53-59;Kim J-I,Ju YS,Park H,et al.A highly annotated whole-genome sequence of a Korean individual.Nature.2009;460(7258):1011-1015.

[17]數字454代表了該技術最初發明時的代號,其具體意義從未有適當的解釋,至少在公共領域還沒有。

[18]因美納公司于2025年2月4日起被中國政府列入不可靠實體清單,因其違反正常的市場交易原則,中斷與中國企業的正常交易,對中國企業采取歧視性措施,嚴重損害中國企業合法權益。——編者注。

主站蜘蛛池模板: 南木林县| 康平县| 玉门市| 阳西县| 德兴市| 车致| 武威市| 开江县| 开平市| 来安县| 左云县| 甘洛县| 宜黄县| 贞丰县| 嵊泗县| 宽甸| 额尔古纳市| 石景山区| 桂阳县| 南昌县| 鄂温| 体育| 崇阳县| 色达县| 黔东| 启东市| 偃师市| 招远市| 梁河县| 定陶县| 巩义市| 饶河县| 浮梁县| 利辛县| 中方县| 诸暨市| 小金县| 遂川县| 沛县| 民勤县| 永安市|