- 《基因傳+癌癥傳》普利策獎穆克吉作品
- (美)悉達多·穆克吉
- 12083字
- 2019-01-04 03:30:21
第六章
基因地理學家
身處非洲版圖的地理學家,
滿眼皆是狂野大地的凄涼;
這里遍布起伏的丘陵地帶,
人跡罕至終成象群的樂土。
——喬納森·斯威夫特(Jonathan Swift),《詩論》
人類基因組計劃本應成為一項崇高的事業,可是現在卻越來越像某種糾纏不清的泥地摔跤比賽。
——賈斯汀·吉利斯(Justin Gillis),2000年
從客觀角度來講,人類基因組計劃所取得的第一個成果與基因毫無關系。1989年,當沃森、津德與同事們正在全力以赴籌備人類基因組計劃時,美國國立衛生研究院一位名不見經傳的神經生物學家克雷格·文特爾(Craig Venter)卻提出了基因組測序的捷徑。
生性爭強好勝的文特爾在學生時代成績平平,他熱衷于沖浪與帆船運動,并且曾經參加過越南戰爭。文特爾對挑戰未知領域的工作充滿了信心,他原本接受的是神經生物學方面的培訓,可是后來大部分時間都花在了腎上腺素的研究上。20世紀80年代中期,文特爾在美國國立衛生研究院工作期間對于人腦中表達基因的測序工作產生了興趣。1986年,文特爾聽聞勒羅伊·胡德發明了快速測序儀后,他當機立斷為自己的實驗室購入了早期型號的設備。測序儀送達之后,文特爾激動地將其稱為“成就夢想的寶盒”。他不僅擁有一雙工程師般的巧手,還能像生物化學家一樣通過實驗來解決問題。只用了短短幾個月,文特爾就掌握了使用半自動測序儀進行快速基因組測序的方法。
文特爾實現快速基因組測序的秘訣就在于大幅精簡原有的步驟。盡管人類基因組由許多基因組成,但是其結構大部分為非編碼序列組成。這種存在于基因之間的序列被稱為基因間DNA,它就像是連接加拿大小鎮之間綿延不絕的高速公路。菲爾·夏普與理查德·羅伯茨已經證實,基因的編碼序列并不是連續排列,那些介于它們之間的非編碼序列被稱為內含子。
對于基因間DNA與內含子來說,它們就是編碼序列之間的間隔序列與間插序列,本身并不編碼任何蛋白質信息。某些DNA序列所包含的信息可以決定基因表達的時間與空間,它們負責編碼基因調控開關的啟動與終止,而其他序列所編碼的功能尚不得而知。我們可以把人類基因組的結構用以下例句進行說明:
This.........is the......str...uc......ture... , , , ...of...your...( ...gen ... ome...) ...
其中每個單詞對應基因編碼序列,省略號對應間隔序列與間插序列,偶爾出現的標點符號則代表基因調控序列的界限劃分。
※※※
文特爾在測序時首先要忽略掉的就是人類基因組中的間隔序列與間插序列。他認為,既然內含子與基因間DNA并不攜帶編碼蛋白質的信息,那么為何不聚焦于編碼“活性”蛋白質的片段呢?在對測序步驟進行反復精簡之后,他大膽提出,如果只對基因組中的某些序列進行測序,那么將可能加快完成上述活性片段評估的進程。文特爾在論證了這種基因片段測序法的可行性后,開始應用該方法對腦組織中數以百計的基因片段進行測序。
如果我們把前述英文例句比作基因組的結構,那么文特爾就是通過搜尋例句中的單詞片段(struc,your與geno)來完成基因組測序。雖然采用這種方法可能無法了解整句話的內容,但是或許能從中得到足以了解人類基因關鍵要素的信息。
文特爾發明的“基因片段”測序法令沃森都感到震驚。毫無疑問,這種方法使用起來更加方便且成本非常低廉,但是對于許多遺傳學家來說,通過該方法得到的基因組信息支離破碎。不同觀點之間的矛盾日趨激化。1991年夏季,當文特爾的團隊正致力于腦組織中基因片段的測序工作時,美國國立衛生研究院的技術轉讓辦公室與文特爾聯系商討新基因片段的專利問題。對沃森來說,這種不和諧的局面令他感到十分尷尬:現在看來,美國國立衛生研究院的研究人員正在分裂為兩個陣營,其中一派在為申請新基因片段的專利而努力,而另一派卻希望將測序結果免費開放。
然而基因(在文特爾這個案例中,指的是“活性”基因片段)怎么能夠申請專利呢?我們應該還記得,斯坦福大學的波伊爾與科恩曾為利用“重組”DNA片段構建遺傳嵌合體的方法成功申請專利,并且基因泰克公司也曾為在細菌中合成胰島素蛋白質取得了專利。1984年,安進公司(Amgen)為應用重組DNA技術分離血液中的促紅細胞生成素申請了專利。如果我們仔細解讀此項專利就會發現,雖然其中也涉及某種具有特殊功能蛋白質的生產與分離問題,但是在此之前從未有人為某個基因或某段遺傳信息申請專利。難道人類基因與根本不具有專利性的其他身體部位(例如鼻子或者左臂)有什么不同之處嗎?還是說新發現的基因片段具有神奇的功能,它理應獲得所屬權與專利權的保護呢?薩爾斯頓就是堅決反對基因專利的學者之一,他寫道:“就我個人理解來說,授予專利是為了保護發明,可是發現基因片段與‘發明’毫無關系,因此為什么要允許基因申請專利呢?”某位研究人員也以輕蔑的口吻記述道:“這是一種卑劣的掠奪行為。”
由于基因片段測序只是隨機進行,而且大多數基因的功能尚不清楚,因此圍繞文特爾申請基因專利展開的爭論已經趨于白熱化。文特爾發明的測序方法并不能保證待測基因片段能夠完全粉碎,所以通過這種方式得到的遺傳信息往往殘缺不全。雖然偶爾也可以對獲得的長段基因片段功能進行推斷,但是在大多數情況下,這些基因片段所攜帶的信息根本不為人知。埃里克·蘭德曾經反駁道:“難道能通過描述象尾為大象申請專利嗎?更何況只是看到了象尾上彼此獨立的三個部分呢。”在某場關于基因組計劃的國會聽證會上,按捺不住心中怒火的沃森指出,“幾乎所有的猿猴”都可以生成類似的基因片段。英國遺傳學家沃爾特·博德默(Walter Bodmer)則警告,如果美國授予文特爾基因片段專利權,那么英國將另起爐灶進行專利申請。就在短短的幾周內,人類基因組計劃已經四分五裂,形成了美國、英國以及德國這三大陣營主導的局面。
1992年6月10日,文特爾厭倦了無休止的爭吵,他離開美國國立衛生研究院成立了自己的私人基因測序機構。文特爾起初將其命名為基因組研究所(Institute for Genome Research),但是他隨即就敏銳地發現了這里面的問題:基因組研究所的縮寫為IGOR,而這恰巧與科學怪人手下那個長著斗雞眼的邪惡管家同名。于是文特爾將其改名為The Institute for Genomic Research,英文縮寫為TIGR。
※※※
根據媒體報道宣傳,或者說至少在學術期刊層面,TIGR取得了非凡的成就。文特爾與貝爾特·福格爾斯泰因以及肯·凱澤等杰出科學家合作,他們共同發現了某些與癌癥相關的新基因。除此之外,文特爾還一直奮斗在基因組測序工作的最前沿。他對外界的批評格外敏感,當然對此也會予以強有力的反擊:1993年,文特爾經過不懈努力,終于將他發明的方法逐步應用到全長基因與基因組測序中。此時,曾經獲得諾貝爾獎的細菌學家漢密爾頓·史密斯(Hamilton Smith)也正式加盟,這讓文特爾在工作上找到了一位志同道合的新戰友。現在,他決定要對引起致命性肺炎的流感嗜血桿菌(Haemophilus influenzae)進行全基因組測序。
雖然文特爾使用的方法是既往在腦組織中采用的基因片段測序法的延續,但是這次基因組測序研究卻標志著某種重要的轉折。在本次試驗中,他將會使用類似霰彈槍的裝置將細菌基因組擊碎成為上百萬個小片段。接下來,他將隨機選取數十萬個片段進行測序,然后利用片段之間的重疊序列將其組裝,并且最終得到整個基因組的序列。而我們將再次使用英文例句對此進行說明,假設需要通過下列單詞片段來構成某個完整的單詞:stru, uctu, ucture, structu以及ucture,那么計算機可以根據其重疊部分拼出完整的單詞:structure。
綜上所述,該測序方法有賴于重疊序列的存在:如果單詞片段之間不存在重疊部分,或者說其中某些片段已經缺失,那么都將無法拼出正確的單詞。盡管如此,文特爾依然堅信他可以借助這種方法來粉碎并重組大多數基因組。此類方法非常像童謠中矮胖子采取的招數:為了完成拼圖,他讓國王的手下充當里面的零件。雖然自從20世紀80年代起,基因測序的開拓者桑格就已經使用過這種“鳥槍法”測序,但是文特爾對流感嗜血桿菌基因組的測序堪稱該方法應用史上最為大膽的嘗試。
1993年冬季,文特爾與史密斯啟動了流感嗜血桿菌基因組測序項目。到了1995年7月,這項創舉就已經大功告成。文特爾后來寫道:“(論文)草稿長達40頁。我們深知這篇文章必定會載入史冊,同時我也堅信此項試驗的結果近乎完美。”
在眾人眼中,上述項目的順利完成簡直就是個奇跡!露西·夏皮羅(Lucy Shapiro)是一位來自斯坦福大學的遺傳學家,她記述了實驗室團隊通宵達旦解讀流感嗜血桿菌基因組序列時的場景,而初次見到一個物種的完整基因組令他們感到非常激動。基因組包括提供能量、編碼外殼蛋白、控制營養攝入以及防止免疫入侵的各種基因。桑格在寫給文特爾的信中也用“無與倫比”一詞形容此項工作。
※※※
當文特爾在TIGR進行細菌基因組測序工作時,人類基因組計劃卻經歷了劇烈的內部變化。1993年,沃森與美國國立衛生研究院的負責人吵得難解難分,隨后他辭去了項目負責人的職務。這個位置很快由來自密歇根大學的遺傳學家弗朗西斯·柯林斯接替,而他為人們熟知的工作就是曾于1989年成功克隆了囊性纖維化基因。
如果人類基因組計劃沒有選擇柯林斯的話,那么其后續的發展可能就會陷入泥潭,沒有人比他更適合來引領該項目克服困難并且勇往直前了。柯林斯出生于弗吉尼亞州,他不僅是個虔誠的基督教徒,亦是一位干練的溝通者與管理者,同時還是一位出類拔萃的科學家。他為人謙虛謹慎且謀略過人,如果把文特爾比作在風浪中頑強抗爭的一葉孤舟,那么柯林斯就好似一艘無懼風暴襲擾的遠洋郵輪。1995年,當TIGR在流感嗜血桿菌基因組測序中遙遙領先時,人類基因組計劃還停留在完善基因測序基本技術的階段。TIGR應用的測序法是先將基因組粉碎,接著對基因片段進行隨機測序,最后再根據重復序列組裝基因組。而人類基因組計劃采取的測序法更為循規蹈矩,他們將基因組片段組裝并排列成物理圖譜(確定“誰挨著誰”),先是確定克隆片段的身份與重疊部分,然后再依次對克隆片段進行測序。
對于人類基因組計劃的早期領導者而言,逐步克隆法是完成基因組裝唯一路徑。蘭德是一位由數學家轉型而來的生物學家,他對鳥槍法測序的反感可以表述為一種審美觀的厭惡。他喜歡通過分段的方法來完成基因組測序,而該過程就像是在解決代數問題。蘭德擔心,文特爾的方法難免會在基因組測序時留下遺漏。蘭德問道:“假如你將某個單詞拆分成字母,那么還能保證還原這個單詞嗎?如果你能找到構成該詞的所有片段,或者每個片段之間都有重疊部分,那么這種方法也許還說得通。但是一旦某些字母丟失了又該怎么辦?”你可能會根據現有的字母拼出某個與原意截然不同的單詞,例如,假設原詞是“profundity”,可是你只找到了“p...u...n...y”這幾個字母。
與此同時,公共基因組計劃的支持者也擔心這些半成品會帶來假象:如果在測序中有10%的基因組序列被忽略,那么人們將永遠無法得到完整的基因組。蘭德后來說道:“人類基因組計劃的真正挑戰并不是測序工作的啟動,而是如何完整地實現基因組序列測定……如果在基因組測序過程中留下遺漏,同時又給公眾造成已經實現的假象,那么人們就會對于基因組測序計劃失去信心。盡管科學家們也會對此表示祝賀,然后一身輕松地回去繼續其他工作,但是基因組的序列草圖將永遠停滯在現階段。”
逐步克隆法不僅需要大量資金與基礎設施的投入,而且更需要從事基因組研究的科學家具有鍥而不舍的精神。在麻省理工學院,蘭德已經組建起一支以年輕科學家為核心的強大科研團隊,其中包括數學家、化學家、工程師以及一幫20多歲的瘋狂電腦黑客。菲爾·格林(Phil Green)是一位來自華盛頓大學的數學家,他正在開發用于基因組測序的算法。與此同時,惠康基金會支持的英國研究團隊也在開發自身的分析與組裝平臺,而當時世界上共有十余個團隊致力于基因組數據的采集與組裝。
※※※
1998年5月,春風得意的文特爾再次做出了重大決定。盡管TIGR推出的鳥槍測序法已經取得了無可爭議的成功,但是文特爾卻對研究所的組織架構感到不滿。由于TIGR隸屬于人類基因組科學公司(HGS)這家營利性機構,這與其非營利性機構的性質完全相悖,同時文特爾感到此類俄羅斯套娃似的組織架構荒謬絕倫。在與公司老板幾經爭論后,他決定脫離TIGR。隨后文特爾成立了一家新公司,專注于人類基因組測序工作。文特爾將新公司命名為Celera(塞萊拉),取自“accelerate”(加速)的縮寫。
就在人類基因組計劃會議即將在冷泉港召開前一周,文特爾在杜勒斯機場轉機期間于貴賓室偶遇柯林斯。文特爾若無其事地宣布,塞萊拉公司將要用鳥槍法完成人類基因組測序。公司已經購置了200臺最先進的測序儀,并且準備以創紀錄的速度完成測序工作。雖然最后文特爾同意將大部分信息資源共享,但是他提出了一項霸王條款:塞萊拉公司將會為300個具有重要意義的基因序列申請專利,而它們可能成為治療乳腺癌、精神分裂癥與糖尿病藥物的靶點。為了實現這個野心勃勃的目標,他甚至已經制定好了時間表。塞萊拉公司希望能夠在2001年前完成整個人類基因組的組裝,其進度將比政府資助的人類基因組計劃設定的期限提前4年。
在上述言論的刺激下,惠康基金會將項目資助的金額翻倍。而美國國會也同意追加聯邦資助的額度,并且為7家美國研究中心撥款6 000萬美元用于測序工作。其中酵母遺傳學家梅納德·奧森與基因測序專家羅伯特·沃特斯頓(曾經是一位蠕蟲生物學家)提出了重要的戰略性建議。
※※※
1998年12月,蠕蟲基因組項目取得了決定性的勝利。在約翰·薩爾斯頓、羅伯特·沃特森(Robert Waterson)以及其他研究人員的共同努力下,他們采用逐步克隆法(也就是人類基因組計劃支持者所認可的方法)完成了整個秀麗隱桿線蟲基因組的測序工作。
如果說流感嗜血桿菌基因組完成測序曾讓遺傳學家們欣喜若狂,那么作為多細胞生物代表的蠕蟲基因組亮麗登場才值得人們頂禮膜拜。雖然蠕蟲要遠比流感嗜血桿菌復雜,但是它與人體結構卻有許多相似之處。蠕蟲的身體由口部、消化道、肌肉以及神經系統(甚至還有原始的大腦)組成,它們具有觸覺與感覺并且能夠移動。蠕蟲會轉動頭部躲避有害刺激,而且它們彼此之間還存在著社交關系。蠕蟲可能會在食物耗盡后表現出焦慮,也可能在交配時感到短暫的快樂。
秀麗隱桿線蟲基因組由18 891個基因組成。其體內36%的編碼蛋白質與人體蛋白質相類似,而剩余的大約10 000個基因與已知的人類基因毫無關系。上述10 000個基因為蠕蟲所特有,或者說其中蘊含著某種特殊的含義,它們仿佛在提醒人們對于自身基因了解程度的匱乏(事實上,人們后來發現其中許多基因都與人類基因同源)。值得注意的是,只有10%的蠕蟲編碼基因與細菌中發現的基因結構相似,其余90%的線蟲基因組專注于構建復雜的生物體結構。該事實再次驗證了進化創新的偉大作用,而單細胞祖先需要經過數百萬年的演化才能形成多細胞生物。
就像人類基因一樣,單個蠕蟲基因也可以擁有多種功能。例如,ceh——13基因能夠控制發育中的神經系統細胞的位置,從而使細胞遷移至蠕蟲身體的前部,并且該基因還將確保其陰門得到正常發育。與之相反,多個蠕蟲基因也可能具有相同的“功能”,例如,蠕蟲口部發育就需要多個基因彼此之間相互協調。
如果我們發現了一萬種新型蛋白質,那么它們具有的功能絕對會超過一萬種,而這種現象足以證實該項目的與眾不同之處。但是蠕蟲基因組最引人注目的特征并不是蛋白質編碼基因,而是能夠轉錄成RNA信息(不是蛋白質)的基因數量。由于這些基因不能編碼蛋白質,因此它們被稱為“非編碼”基因。盡管它們分布在基因組的各個角落,可是卻會聚集于特定染色體上。這些“非編碼”基因的數量從幾百到幾千各不相同。我們已經掌握了某些非編碼基因的功能:例如細胞器中體型巨大的核糖體就是蛋白質合成的場所,其中還有可以協助制造蛋白質的特殊RNA分子。其他非編碼基因還包括最終被證實可以編碼某種名為“microRNA”的小RNA,它們在調控基因表達時具有強大的特異性。盡管如此,多數非編碼基因的神秘功能時至今日仍不得而知。雖然這些基因不是暗物質,但是它們卻籠罩在基因組的陰影下。即使遺傳學家發現了此類基因,人們也難以明確理解其功能或意義。
※※※
然而什么是基因呢?1865年,當孟德爾在研究中首次發現“基因”時,他只知道這是一種令人匪夷所思的現象:它是以離散狀態進行代際傳遞的決定因素,并且可以左右生物體的外在性狀或者表型,例如花的顏色或豌豆種子的質地。接下來摩爾根與穆勒通過證實基因是位于染色體上的物質結構加深了人們的感性認識。隨后埃弗里根據其化學形態確認DNA就是遺傳信息的載體。而沃森、克里克、威爾金斯和富蘭克林最終解開了基因的分子結構之謎,它是由兩條互補配對的DNA鏈組成的雙螺旋結構。
20世紀30年代,比德爾與塔特姆在研究基因的作用機制時發現,它可以通過改變蛋白質的結構來“發揮作用”。接著布倫納與雅各布發現了信使RNA這種中間體分子,它在遺傳信息翻譯成蛋白質的過程中扮演著至關重要的角色。莫諾與雅各布則引入了基因的動態概念,其中信使RNA就像是附著在基因上的調控開關,并且可以通過其數量增減來啟動或關閉相應基因。
成功實現蠕蟲全基因組測序使基因概念的內涵得到了發揚光大。雖然生物體中某個基因可以對應某種功能,但是單個基因卻可以對應多種功能。基因不能直接發出合成蛋白質的指令,它首先要轉錄為RNA而不是蛋白質。基因結構未必由連續的DNA片段組成,它可能會被非編碼序列分成不同的區域。此外,基因上還附著調控序列,它們會與編碼基因保持距離。
全基因組測序為人類開啟了通向有機生物學未知世界的大門。它就像一部內容浩瀚的百科全書,其中的詞條必須不斷更新。現在基因組測序已經顛覆了傳統的基因概念,甚至從某種意義上說也改變了基因組本身的意義。
※※※
1998年12月,《科學》雜志專刊登載了秀麗隱桿線蟲基因組的測序結果,而本期雜志的封面就是一條毫米級別的線蟲,該文一經發表便得到了科學界的廣泛好評,當然這也是對于人類基因組計劃強有力的辯白。在蠕蟲基因組測序完成后幾個月,蘭德自己領導的團隊也傳來了好消息:人類基因組計劃已經完成了四分之一的測序工作。蘭德領導的研究機構位于馬薩諸塞州劍橋市肯德爾廣場附近的工業區,實驗室設在一座光線幽暗且空氣干燥的拱形倉庫里,共擺放著125臺體積巨大的灰色的半自動測序儀,它們每秒鐘能讀取大約200個DNA序列(在這些機器的幫助下,桑格用時3年才完成的病毒測序工作只需25秒就能完成)。人類22號染色體的測序工作已經完成組裝,目前正等待進行最后的確認工作。1999年10月,人類基因組計劃即將迎來測序開展以來一個值得紀念的里程碑:研究人員即將在全部30億個堿基對中完成第10億個堿基對的測序工作(后來證實該堿基對是G—C)。與此同時,塞萊拉也在這場激烈的競爭中緊追不舍。由于私人投資者的資金非常充裕,因此塞萊拉的基因測序速度比人類基因組計劃快了一倍。1999年9月17日,就在蠕蟲基因組測序結果發表9個月后,塞萊拉在邁阿密的楓丹白露酒店舉辦了一場基因組研究的盛會,并且以完成黑腹果蠅(Drosophila melanogaster)基因組的測序為契機發起了戰略反擊。在果蠅遺傳學家格里·魯賓(Gerry Rubin)與一批來自伯克利和歐洲遺傳學家的協助下,文特爾的團隊在短短11個月內就完成了果蠅基因組的測序,其速度之快打破了此前所有基因測序項目的紀錄。隨著文特爾、魯賓以及馬克·亞當斯逐個登臺亮相發表演說,果蠅基因組測序的意義就顯得愈發清晰:自從托馬斯·摩爾根在90年前開創了果蠅研究以來,遺傳學家已經在果蠅體內發現了大約2 500個基因。塞萊拉的序列草圖不僅包含了所有已知的2 500個基因,而且還令人震驚地新增了10 500個新基因。演講結束時,現場突然一片寂靜,在座觀眾對于上述成果無不充滿敬意,文特爾則不失時機地向競爭對手發起攻擊:“哦,順便說一下,我們已經著手進行人類DNA的測序工作,目前看來其(技術門檻)并不比果蠅基因組測序更復雜。”
2000年3月,《科學》雜志在另外一期專刊上發表了果蠅基因組的測序結果,其封面采用了1934年完成的一幅以雌雄果蠅為題材的版畫。即便是鳥槍測序法最堅定的反對者也不得不為這些數據的質量與深度所震撼。雖然鳥槍法在測序時遺漏了某些重要的序列,但是果蠅基因組的關鍵片段依然可以保持完整。如果將人類、蠕蟲以及果蠅的基因進行比較,那么就會發現某些驚人的相似之處。在已知的289個人類致病基因中,有177個(超過60%)可以在果蠅體內找到同源序列。由于果蠅體內沒有紅細胞且不能形成血栓,因此并未發現與鐮刀形紅細胞貧血癥和血友病相關的基因。目前研究人員已經在果蠅基因組內發現了與結腸癌、乳腺癌、泰伊—薩克斯二氏病、肌肉萎縮癥、囊性纖維化、阿爾茨海默病、帕金森病以及糖尿病相關的基因或者同源序列。雖然長著四條腿與一對翅膀的果蠅經歷了數百萬年的進化,但是它與人類卻享有共同的核心通路與遺傳網絡。就像威廉·布萊克在1794年的作品中描述的那樣,小巧的蒼蠅“就像我一樣”。
眾所周知,基因組的大小并不是決定性因素,因此數量有限的果蠅基因卻令人感到非常困惑。與那些具有豐富經驗的果蠅生物學家的預期相反,果蠅基因組只有區區13 601個基因,比線蟲的基因數量少了5 000個。但是果蠅通過數量有限的基因就構建出了結構更為復雜的生物體,它不僅具有雌雄交配、繁衍后代、生老病死與代謝酒精的特征,同時還擁有痛覺、嗅覺、味覺、視覺與觸覺等功能,并且與人類一樣渴望夏季成熟的瓜果。魯賓曾經說過:“我們從果蠅基因組研究中獲得了啟示,生物體的基因數量與其復雜性并不成正比。人類基因組……很可能就是果蠅基因組的放大版……此類復雜特征的進化軌跡從本質上講是一個循序漸進的過程,而這些交互作用的結果起源于結構相似基因在時空上的隔離。”
就像理查德·道金斯所描述的那樣:“所有動物都具有結構相似的蛋白質庫,它們隨時處于待命狀態……”下面我們舉例說明復雜生物體與簡單生物體之間的區別,“人類與線蟲之間的差異并不在于基因數量的多少,而是生物體能否在千變萬化的環境中發揮基因錯綜復雜的功能”。如果將果蠅基因組比作德爾斐之船,那么船體的大小并不是主要問題,關鍵在于船板的連接方式。
※※※
2000年5月,塞萊拉與人類基因組計劃之間的競爭已經到了白熱化的程度,它們都希望能夠率先發布人類基因組序列草圖。此時文特爾接到了美國能源部的朋友阿里·帕特里諾斯(Ari Patrinos)的電話,而之前帕特里諾斯已經邀請弗朗西斯·柯林斯晚上到自己家里小聚。文特爾會接受邀請嗎?本次會面將僅限于他們三個人之間,并且談話內容也將嚴格保密。
其實帕特里諾斯在給文特爾打電話之前已經精心策劃了好幾個星期。塞萊拉與人類基因組計劃競賽的消息已經通過政治渠道傳入白宮。克林頓總統敏銳地意識到,如果塞萊拉在這場競賽中獲勝,那么將使美國政府處于十分尷尬的境地。克林頓在給助手的便簽邊緣寫下了“搞定”這兩個字,而帕特里諾斯就是被派來解決問題的中間人。
一周之后,文特爾與柯林斯在帕特里諾斯位于喬治敦的家的地下娛樂室見了面。可想而知,當時的氣氛非常冷淡。帕特里諾斯靜待雙方的情緒緩和下來,然后才委婉地提到這次會面的主旨:柯林斯與文特爾能否就人類基因組測序發布一份聯合聲明?
文特爾與柯林斯在見面之前已經對于該提議做好了心理準備。雖然文特爾提出了幾點注意事項,但是基本上對于該提議表示了默許。他同意與柯林斯一起在白宮舉行聯合儀式以慶祝序列草圖的完成,并且愿意和后者在《科學》雜志上共同發表文章。然而文特爾并未就項目完成的時間做出任何承諾,就像某位記者后來所描述的那樣,這是一個“精心策劃的圈套”。
對于文特爾、柯林斯與帕特里諾斯來說,在阿里·帕特里諾斯家地下室進行的會面是他們之間進行的首次磋商。在隨后的三個星期里,柯林斯與文特爾經過深思熟慮制定了發布聯合聲明的日程:克林頓總統將首先致辭,接著是英國首相托尼·布萊爾表態,隨后柯林斯與文特爾將會發表演講,最終塞萊拉與人類基因組計劃將分享人類基因組測序競賽的并列冠軍。白宮方面旋即在知曉雙方態度的基礎上要求迅速確定日期,而文特爾與柯林斯在征得各自團隊的同意后將時間定在2000年6月26日。
※※※
2000年6月26日上午10:19,克林頓總統在白宮接見了文特爾與柯林斯,他在眾多科學家、記者與外國政要面前宣布人類基因組“初步測序”首戰告捷(事實上,無論是塞萊拉還是人類基因組計劃均未完成測序工作,但是兩大陣營共同發表聯合聲明將具有象征性意義;即便白宮宣布了基因組“初步測序”成功的消息,但是塞萊拉與人類基因計劃的科學家仍然在計算機前夜以繼日地工作,他們正在努力將完成測序的基因片段組裝成為有實際意義的基因組)。英國首相托尼·布萊爾則在倫敦通過衛星轉播參加了本次會議。此外在觀眾席就座的還有諾頓·津德、理查德·羅伯茨、埃里克·蘭德以及哈姆·史密斯,當然還有身著純白西裝的人類基因組計劃首任負責人詹姆斯·沃森。
克林頓總統首先發言,他將人類基因組圖譜與劉易斯和克拉克的探險地圖進行了比較:
“將近兩個世紀之前,就在我們所在樓層的這個房間里,托馬斯·杰斐遜與其助手展開了一幅氣勢宏偉的地圖,而正是該作品承載了杰斐遜總統畢生追求的夢想……這幅地圖不僅描繪了山川地貌,還將美利堅合眾國的疆土延伸至遠方,同時極大地豐富了我們的想象力。今天,全世界的目光都聚焦在白宮東廳,人們將共同見證另一幅偉大地圖的誕生。我們在此熱烈慶祝人類基因組初步測序工作完美收官。毋庸置疑,這是人類迄今為止所能繪制的最重要與最美妙的地圖。”文特爾是本次活動的最后一位演講嘉賓,他還是忍不住要提醒在座的觀眾,這場由他個人引領的探險也已經同步抵達終點:“在今天中午12:30,塞萊拉基因公司會與人類基因組計劃聯合召開新聞發布會,研究人員將介紹通過鳥槍法完成測序后進行首次基因組裝的過程。目前,我們已經完成了三女兩男的基因組測序工作,他們分別是西班牙人、亞洲人、高加索人以及非洲裔美國人。”
※※※
與眾多停戰協定一樣,文特爾與柯林斯之間的約定幾乎從達成伊始就面臨著危機。在某種程度上,他們二人之間的沖突仍集中在既往的爭論上。雖然基因專利申請能否得到受理尚不明確,但是塞萊拉已經決定將收取測序項目訂閱費作為盈利模式,而其付費對象就是相關領域的科研人員與制藥公司(文特爾機敏地察覺到,大型制藥公司可能會根據基因序列來研發新藥,尤其是針對某些特殊蛋白質的靶向藥)。此外文特爾還希望能夠在《科學》雜志這本重量級刊物上發表文章,但是這就需要塞萊拉將遺傳圖譜告知天下(科學家不應在公開發表論文的同時還堅持為實驗數據保密)。可想而知,沃森、蘭德與柯林斯均對塞萊拉企圖名利雙收的行為進行了尖銳抨擊。文特爾曾經對某位采訪者說道:“我最引以為榮的成就當屬被商界與學術圈嫉恨。”與此同時,人類基因組計劃也遇到了技術瓶頸。就在采用逐步克隆法完成了大部分測序工作之后,這項計劃也需要解決把基因序列組裝成遺傳圖譜的難題。雖然該任務從理論上看來并不復雜,但是實際操作中的計算量卻非常龐大,更何況某些重要序列在測序過程中會出現缺失。由于克隆與測序手段并不能涵蓋基因組的每個角落,因此組裝非重疊片段要遠比預料中復雜得多,這個過程就好比是在組裝一幅殘缺不全的拼圖。于是蘭德又額外招募了一批科學家來幫忙,其中就包括來自加州大學圣克魯茲分校的計算機學家戴維·豪斯勒(David Haussler)以及他的學生詹姆斯·肯特(James Kent),其中年屆不惑的肯特在成為分子生物學家之前曾經是一位程序員。為了便于肯特編寫與測試數以萬計的計算機代碼,豪斯勒突發奇想說服學校購置了100部臺式電腦,此外肯特在夜間都會冷敷手腕以確保早晨能夠正常編程。
由于部分人類基因組充滿了奇怪的相似重復序列,因此塞萊拉也在基因序列組裝時陷入了窘境。就像文特爾所描述的那樣:“仿佛迷失在拼圖游戲中那片廣闊的藍天里。”盡管負責組裝基因組的計算機學家們馬不停蹄地工作,并且盡力將完成測序的基因片段進行有序排列,但是組裝好的基因組中仍有部分序列不知所蹤。
到了2000年冬季,隨著塞萊拉與人類基因組計劃即將完成,兩大陣營之間的蜜月期也走到了盡頭。文特爾指責人類基因組計劃公然詆毀塞萊拉公司。蘭德則致信《科學》雜志編輯部,抗議塞萊拉在兜售序列數據庫的同時限制部分資源共享,并且還希望在某些雜志上發表部分經過篩選的數據的行為,塞萊拉就是企圖“將基因組數據據為己有并且以此牟利”。蘭德對此大聲疾呼:“科學寫作的歷史源自17世紀,其中任何一項發現的問世都伴隨著相關數據的公布,目前這種共識已經成為現代科學的基石。如果社會還處于前現代時期,那么人們可能會在拒絕公開結果的情況下提出主張,‘我找到了答案!’或者說‘我能點石成金!’然而專業科學期刊的權威性就在于其信息披露與誠信制度。”更為尖銳的是,柯林斯與蘭德指責這種將人類基因組計劃已發表的序列作為組裝基因組“骨架”的行為幾乎等同于分子抄襲(文特爾對此回應說這種言論簡直荒謬之極!塞萊拉在破譯基因組時從不需要參考別人的“骨架”)。蘭德宣稱,假如塞萊拉只依靠自身的設備進行測序,那么其獲得的數據不過是“一盤散沙”。
就在塞萊拉即將完成文章的終稿時,廣大科學家強烈呼吁該公司將測序結果交給公共數據庫GenBank管理。最終,文特爾同意向科研人員免費提供開放數據,前提是要遵守某些特殊的條款。由于薩爾斯頓、蘭德與柯林斯對于文特爾的妥協頗為不滿,因此他們選擇將論文發表在與《科學》雜志互為競爭對手的《自然》雜志上。
2001年2月15日與16日,人類基因組計劃聯盟與塞萊拉的文章分別在《自然》與《科學》雜志上發表。上述論文均是內容豐富的長篇巨著,并且幾乎占據了這兩份雜志的全部篇幅(人類基因組計劃撰寫的文章大約有66 000字,成為《自然》雜志有史以來刊登過的最長論著)。每部科學著作都是各自時代的寫真,而發表在《自然》雜志上的文章在開篇就充分認識到了其所處的歷史時刻:
“20世紀初,孟德爾遺傳定律的重新發現指明了探索科學之路,而這也讓人們對于上個世紀推動生物學發展的遺傳信息性質與內容產生了濃厚的興趣。從此以后,遺傳學發展逐漸演化為四個階段,大約每隔25年就會上一個臺階。
“在第一階段,染色體被正式確認為遺傳學的細胞基礎;到了第二階段,DNA雙螺旋結構成為遺傳學跨入分子時代的里程碑;而在進入第三階段后,遺傳學已經駛入信息高速路的軌道(例如遺傳密碼)。同時人們還發現了細胞讀取基因中遺傳信息的機制,并且根據重組DNA技術實現了遺傳物質的克隆與測序。”
這篇文章在結尾之處斷言,完成人類基因組測序標志著遺傳學從此晉級“第四階段”。“基因組”時代已經悄無聲息地降臨,我們將對包括人類在內的所有生物體基因組進行評估。然而這樣將再次陷入哲學悖論的迷局:智能機器能否破譯控制其自身的指令手冊呢?雖然我們已經獲得了完整的人類遺傳圖譜,可是如何進行破譯、讀取以及理解應另當別論。