- 生命通史
- 朱欽士
- 5026字
- 2020-10-23 11:11:25
第三節(jié)
細(xì)胞核出現(xiàn)
線粒體給寄主細(xì)胞帶來威力強(qiáng)大的“發(fā)電廠”的同時(shí),也帶來了另一個(gè)“不速之客”,那就是內(nèi)含子。它的出現(xiàn)使得細(xì)胞核成為必要。要知道什么是內(nèi)含子,就要從1977年美國兩個(gè)實(shí)驗(yàn)室的意外發(fā)現(xiàn)說起。
在20世紀(jì)70年代以前,人們對基因的認(rèn)識是很簡單的:基因就是DNA分子上為蛋白質(zhì)編碼的區(qū)段,再加上控制基因表達(dá)的“開關(guān)”,即啟動(dòng)子。當(dāng)啟動(dòng)子把基因“打開”時(shí),這段編碼的DNA序列就被“轉(zhuǎn)錄”為mRNA,mRNA再指導(dǎo)核糖體合成蛋白質(zhì)。為蛋白質(zhì)編碼的DNA序列被認(rèn)為是連續(xù)的,mRNA分子中為蛋白質(zhì)編碼的RNA序列也因此是連續(xù)的。在原核生物中,這的確是實(shí)際情況。在大腸桿菌中,合成mRNA的過程還沒有完成,在附近的核糖體就“迫不及待”地“抓住”mRNA,開始蛋白質(zhì)合成了。所以在原核生物中,合成mRNA和合成蛋白質(zhì)是在同一個(gè)地方,幾乎同時(shí)進(jìn)行的(圖3-3)。

圖3-3 大腸桿菌中的轉(zhuǎn)錄和翻譯。在這幅電鏡照片中,mRNA剛開始合成,核糖體就結(jié)合在mRNA分子上,開始蛋白質(zhì)的合成(翻譯),而不等待mRNA的生產(chǎn)完成。同一條mRNA分子上可以結(jié)合多個(gè)核糖體,同時(shí)進(jìn)行蛋白質(zhì)的合成
這種“編碼序列是連續(xù)的”的觀念在1977年被打破了。在這一年,美國冷泉港實(shí)驗(yàn)室的里查德·羅伯茲(Richard J. Roberts)和麻省理工學(xué)院的菲利浦·夏普(Phillip A. Sharp)同時(shí)在研究引起人感冒的腺病毒(adenovirus)。這種腺病毒的主要蛋白叫做六鄰體(Hexon),是包裹病毒DNA的表面蛋白質(zhì)。他們先從被病毒感染的細(xì)胞中提取到六鄰體的mRNA。為了尋找病毒DNA中為六鄰體蛋白編碼的部位,他們讓mRNA和病毒的DNA“雜交”,即讓mRNA的序列和DNA分子上相應(yīng)的序列通過堿基配對彼此結(jié)合。出乎意料的是,六鄰體mRNA和DNA上四個(gè)互不相連的區(qū)段結(jié)合,這四個(gè)區(qū)段之間沒有和mRNA結(jié)合的部分則游離出來,形成三個(gè)環(huán)。這個(gè)結(jié)果使他們認(rèn)識到,腺病毒DNA為六鄰體蛋白質(zhì)編碼的序列不是連續(xù)的,而是分為許多段(圖3-4)。

圖3-4 基因中內(nèi)含子的發(fā)現(xiàn)。腺病毒的六鄰體基因中,為蛋白質(zhì)編碼的部分不是連續(xù)的,而是分為四段,它們之間被非編碼的DNA序列隔開。mRNA的分子中,編碼部分被連在一起,間隔序列則被“剪”掉。當(dāng)用六鄰體基因的DNA和對應(yīng)的mRNA雜交時(shí),mRNA只和編碼的序列通過堿基配對結(jié)合,間隔序列則形成環(huán)?;蛑袨榈鞍踪|(zhì)編碼的序列被稱為外顯子,間隔序列稱為內(nèi)含子。上為圖示;左下為雜交結(jié)構(gòu)的電鏡照片;右下為照片的圖解
在這些實(shí)驗(yàn)結(jié)果的基礎(chǔ)上,美國科學(xué)家瓦爾托·基爾伯特(Walter Gilbert)于次年(1978年)提出了內(nèi)含子(intron)的概念。內(nèi)含子就是編碼序列之間的DNA區(qū)段,其序列在mRNA合成后被“剪切”掉,不出現(xiàn)在成熟的mRNA分子中。而為蛋白質(zhì)編碼的區(qū)段則被稱為外顯子(exon),它們被內(nèi)含子分隔開,和內(nèi)含子的序列一起被轉(zhuǎn)錄。當(dāng)mRNA分子中的內(nèi)含子序列被剪切掉以后,外顯子就連在一起,去指導(dǎo)蛋白質(zhì)的合成,最后的效果就像當(dāng)初內(nèi)含子不存在一樣。我們可以想象為蛋白質(zhì)編碼的DNA序列為藍(lán)線,被分成幾段,中間由白線(內(nèi)含子)連起來。把白線剪掉,把藍(lán)線部分連起來的過程就叫做mRNA的剪接(splice)。羅伯茲和夏普的研究結(jié)果使科學(xué)家也去研究真核生物的基因,發(fā)現(xiàn)許多這些基因中編碼序列也是不連續(xù)的,也就是許多真核生物的基因含有內(nèi)含子。這是基因結(jié)構(gòu)觀念上的大革命,羅伯茲和夏普也因此獲得了1993年的諾貝爾生理學(xué)和醫(yī)學(xué)獎(jiǎng)。
內(nèi)含子是如何起源的,至今科學(xué)界還沒有統(tǒng)一的意見。一種假說認(rèn)為,內(nèi)含子在生命出現(xiàn)的早期,在RNA世界時(shí)就出現(xiàn)了。當(dāng)時(shí)DNA還沒有出現(xiàn),RNA分子則“一身數(shù)任”:既要催化自己的合成,又要催化蛋白質(zhì)的合成,還要用自己的核苷酸序列為蛋白質(zhì)中的氨基酸序列編碼(見第一章第四節(jié))。要使一個(gè)長長的RNA分子的連續(xù)序列來為蛋白質(zhì)編碼,編出來的蛋白質(zhì)又是具有生物功能的,概率非常小,就像把英文的26個(gè)字母隨機(jī)地排列在一起會(huì)出現(xiàn)一段有意義的文字那樣困難。比較可能的情況是RNA分子內(nèi)有許多小的區(qū)段,每段給一些氨基酸編碼。有選擇性地把這些區(qū)段結(jié)合起來,就有可能產(chǎn)生有功能的蛋白質(zhì)。這就像隨機(jī)排列的字母不容易產(chǎn)生有意義的詞和句子,但是有選擇性地去掉一些字母,就可以連成有意義的詞和句子。由于RNA分子具有自我剪接的能力,這樣的過程是有可能的。當(dāng)然這是一個(gè)漫長和隨機(jī)的過程,但是這樣的目標(biāo)最終是可以實(shí)現(xiàn)的。一旦這樣的組合被固定下來,它們就可以在DNA出現(xiàn)后,被復(fù)制到DNA分子中,然后在mRNA階段再進(jìn)行剪接?,F(xiàn)在原核生物以RNA為最終產(chǎn)物(如tRNA和rRNA)的基因(即不為蛋白質(zhì)編碼的基因)中,就還有許多這樣的區(qū)段,它們能夠在RNA分子被合成后,自己把自己剪切掉,包括Ⅰ型和Ⅱ型內(nèi)含子(這兩型內(nèi)含子剪切自己的方式不同)。經(jīng)過幾十億年的時(shí)間,能夠自我剪接的RNA內(nèi)含子類型居然還有兩種,說明內(nèi)含子在RNA生命階段就出現(xiàn)的學(xué)說是有一定道理的。
不過到原核生物出現(xiàn)后,這種為蛋白質(zhì)編碼的方式就不理想了。因?yàn)樵诤铣傻膍RNA分子中,有很大一部分是不為蛋白質(zhì)編碼,因此需要去除的“廢物”。這些內(nèi)含子既占DNA的空間,使得原核生物復(fù)制DNA時(shí)要付出更多的成本,在合成mRNA時(shí),細(xì)胞還要花費(fèi)資源去合成這些廢物,而且剪接mRNA也需要時(shí)間。而對于簡單的原核生物,資源有限,還必須迅速繁殖才能與其他的原核生物競爭。如果能夠把這些“廢物”去掉,既能節(jié)省資源,又能繁殖,對于原核生物的生存無疑是非常有利的。這樣經(jīng)過億萬年的演化,原核生物基本上已經(jīng)把內(nèi)含子“清除”掉了。為蛋白質(zhì)編碼的DNA序列是連續(xù)的,生成的mRNA也不需要剪接,而是可以直接用來指導(dǎo)蛋白質(zhì)的合成,因而出現(xiàn)了在原核生物中,轉(zhuǎn)錄和蛋白質(zhì)合成同時(shí)同地進(jìn)行的情形(參看圖3-3)。在這種情況下,細(xì)胞核的存在反而會(huì)延遲轉(zhuǎn)譯開始的時(shí)間,因此原核生物中的絕大多數(shù)都沒有細(xì)胞核。原核生物的基因之間也有一些“沒用”的DNA序列,不過一般只占DNA序列的10%~15%,殘余的內(nèi)含子也基本上“躲”在這些地方。
另一方面,真核生物的DNA中卻含有大量的內(nèi)含子,而且越是高級的生物(例如哺乳動(dòng)物和開花植物),基因中內(nèi)含子的數(shù)量越多。為蛋白質(zhì)編碼的基因,幾乎都含有內(nèi)含子。例如人類,每個(gè)基因平均含有8.1個(gè)內(nèi)含子,擬南芥(Arabidopsis thaliana,一種開花植物)每個(gè)基因平均含有4.4個(gè)內(nèi)含子,就連低等動(dòng)物,如果蠅(Drosophila melanogaster),每個(gè)基因也平均有3.4個(gè)內(nèi)含子,而許多原核生物總共也只有幾個(gè)內(nèi)含子。看到這里,估計(jì)有人會(huì)產(chǎn)生疑問:原核生物想盡量去掉的東西,真核生物怎么會(huì)讓它存在并且讓它繁榮起來呢?原因看來有兩個(gè):一是真核生物因?yàn)橛芯€粒體提供能量,“財(cái)大氣粗”,不在乎這點(diǎn)“廢物”的存在。真核生物是以質(zhì)取勝,即通過自己更強(qiáng)大多樣的功能取勝,而不是像原核生物那樣以量取勝,所以不必拼命繁殖。二是真核生物巧妙地利用了內(nèi)含子的存在來形成更多的蛋白質(zhì)。在原核生物中,因?yàn)榫幋a序列是連續(xù)的,沒有“花樣”可玩。編碼序列什么樣,蛋白質(zhì)就什么樣,一個(gè)編碼程序就只能生成一種蛋白質(zhì),真是“一個(gè)基因?qū)?yīng)一種蛋白質(zhì)”。而在真核生物中,由于編碼序列是最后“拼接”起來的,如果改變拼接方法,只使用其中的一些編碼區(qū)段,讓外顯子以不同的方式結(jié)合,就可以從同一個(gè)基因形成不同的蛋白質(zhì)。這種不同的拼接外顯子的方法叫做選擇性剪接(alternative splicing)。例如果蠅的dsx基因是控制性別的基因。它有6個(gè)外顯子。如果把外顯子1、2、3、5、6拼接在一起,就會(huì)形成一個(gè)使果蠅向雄性發(fā)育的轉(zhuǎn)錄因子。但是如果把外顯子1、2、3、4拼接在一起,就會(huì)形成一個(gè)使果蠅向雌性發(fā)育的轉(zhuǎn)錄因子。這樣,同一個(gè)基因就可以產(chǎn)生功能完全相反的兩種蛋白質(zhì)。一個(gè)基因產(chǎn)生巨大數(shù)量蛋白質(zhì)的“冠軍”,要數(shù)果蠅的DSCAM基因。它有24個(gè)外顯子,可以形成38016種不同的組合,即生成38016種蛋白質(zhì),而果蠅的全部基因數(shù)才15016個(gè)!在人的全部DNA序列測定以后,發(fā)現(xiàn)其中只有大約21000個(gè)基因。這個(gè)結(jié)果出乎人們的預(yù)料,甚至有人認(rèn)為這是對人類的羞辱,因?yàn)槟敲吹图壍脑松锎竽c桿菌(菌種K-12)都有4377個(gè)基因,其中4290個(gè)基因?yàn)榈鞍踪|(zhì)編碼。考慮到人的復(fù)雜性遠(yuǎn)遠(yuǎn)超過大腸桿菌,人類好像應(yīng)該至少有100000個(gè)以上的基因才“合理”。其中的奧妙就在人的基因能夠活躍地進(jìn)行選擇性剪接,所以兩萬個(gè)左右的基因可以形成10萬種以上的蛋白質(zhì)。這就可以解釋為什么生物越高級,為蛋白質(zhì)編碼的基因中內(nèi)含子越多。
為蛋白質(zhì)編碼的基因中出現(xiàn)內(nèi)含子,轉(zhuǎn)錄生成的最初的mRNA就不能直接在核糖體中指導(dǎo)蛋白質(zhì)的合成了,因?yàn)槟菢訒?huì)把內(nèi)含子中的序列也當(dāng)做是編碼,合成出錯(cuò)誤的蛋白質(zhì),所以必須先把mRNA中的內(nèi)含子部分去掉,然后才能用來合成蛋白質(zhì)。而去掉內(nèi)含子的剪接過程又是比較慢的,怎么才能防止內(nèi)含子去掉之前合成蛋白質(zhì)的過程就開始呢?唯一的辦法就是不讓核糖體接觸到還沒有“加工”完畢的mRNA。換句話說,就是轉(zhuǎn)錄和蛋白質(zhì)合成必須在空間上分開,而這正是細(xì)胞核的作用。細(xì)胞核的膜能夠防止完整的核糖體進(jìn)入細(xì)胞核,而mRNA在剪接完成前,又不會(huì)離開細(xì)胞核,這樣核糖體能夠接觸的,就只能是加工完畢的mRNA。其實(shí)真核生物加工mRNA還不只是去掉內(nèi)含子,還要給mRNA“穿靴戴帽”?!按┭ァ本褪墙omRNA分子加上一個(gè)由100~250個(gè)腺苷酸組成的“尾巴”,叫做“多聚腺苷酸尾巴”?!按髅薄笔窃趍RNA的“頭”(5′端)的鳥嘌呤上面加一個(gè)甲基(—CH3)。這兩個(gè)修飾都使mRNA分子更穩(wěn)定,也等于是給mRNA分子戴上了“放行徽章”,可以離開細(xì)胞核了。所以細(xì)胞核的出現(xiàn),是為蛋白質(zhì)編碼的基因中出現(xiàn)內(nèi)含子的必然結(jié)果。
如果把各種真核生物同種基因中內(nèi)含子的位置做比較,發(fā)現(xiàn)許多這些內(nèi)含子的位置是相同的。例如動(dòng)物和植物之間有17%的內(nèi)含子位置是相同的,真菌和植物之間有13%的內(nèi)含子位置相同,甚至人類和開花植物擬南芥之間,都有25%內(nèi)含子在基因中的位置相同。這些事實(shí)說明,真核生物的內(nèi)含子出現(xiàn)的時(shí)間非常早,在所有真核生物的共同祖先中就出現(xiàn)了。據(jù)各種模型的推測,在最早的真核生物中,為蛋白質(zhì)編碼的每個(gè)基因平均含有2~3個(gè)內(nèi)含子。由于細(xì)菌的DNA含有的內(nèi)含子數(shù)量極少,在最初的真核生物形成時(shí),一定有一個(gè)內(nèi)含子數(shù)量突然大量增加的事件。由于原核生物經(jīng)過10億年左右的演化,已經(jīng)將內(nèi)含子基本消除,真核生物的共同祖先又是從原核生物演化而來的,內(nèi)含子的突然增加是如何發(fā)生的呢?2006年,美國科學(xué)家尤金·庫寧(Eugene V. Koonin)提出一個(gè)假說,他認(rèn)為是后來要變成線粒體的 α-變形菌進(jìn)入寄主細(xì)胞后,其DNA中的內(nèi)含子“入侵”寄主的DNA并在那里繁殖,使得最初的真核細(xì)胞含有大量的內(nèi)含子。
真核生物為了適應(yīng)這種情況,發(fā)展出了細(xì)胞核把DNA和核糖體分開,同時(shí)發(fā)展出了更有效的方式來剪除mRNA中的內(nèi)含子序列,這就是剪接體(spliceosome)。剪接體是由5個(gè)細(xì)胞核內(nèi)的小分子RNA(snRNA,包括U1、U2、U4、U5、U6)和蛋白質(zhì)組成的巨型復(fù)合物。5個(gè)snRNA分別識別內(nèi)含子的各個(gè)部位,例如U1會(huì)先辨識內(nèi)含子的5′端剪接點(diǎn)( 內(nèi)含子5′端與外顯子結(jié)合的地方),而U2 識別3′端剪接點(diǎn)(內(nèi)含子3′ 端與另一個(gè)外顯子結(jié)合的地方)上游的“分支點(diǎn)”。這個(gè)步驟將mRNA上要被剪切除去的內(nèi)含子定位。然后,由U4-U5-U6組成的三聚體加入,使得分支位點(diǎn)上的腺苷酸被連到內(nèi)含子的5′端上,使它脫離外顯子,同時(shí)內(nèi)含子的RNA鏈形成一個(gè)“套馬索”那樣的環(huán)狀結(jié)構(gòu)。脫離了內(nèi)含子的5′外顯子再與3′的外顯子結(jié)合,內(nèi)含子就被剪切掉了(圖3-5)。

圖3-5 內(nèi)含子被剪除的過程
剪切體剪除內(nèi)含子的過程與Ⅱ型內(nèi)含子“自我”剪切的過程極為相似,例如都形成“套馬索”那樣的結(jié)構(gòu)和中間步驟,RNA分子的空間結(jié)構(gòu)也高度一致。所以真核生物的剪切體應(yīng)該是從原核生物的Ⅱ型內(nèi)含子演化而來的。Ⅱ型內(nèi)含子是自己切割自己,而剪切體的5個(gè)snRNA則是Ⅱ型內(nèi)含子分開的片段,再與蛋白質(zhì)形成復(fù)合體。所有的原核生物都沒有剪切體,剪切體是被真核生物發(fā)展出來的,即把原來自我剪切的內(nèi)含子分成幾段,再分別和蛋白質(zhì)結(jié)合。即使是在人類的細(xì)胞里,實(shí)際剪切內(nèi)含子的分子還是剪切體中的snRNA,蛋白質(zhì)只起輔助作用。核糖體合成蛋白質(zhì)時(shí),起催化作用的仍然是RNA(rRNA)分子。這些事實(shí)都說明,最初的生命是RNA的世界,真核生物的內(nèi)含子也是由RNA分子中的Ⅱ型內(nèi)含子演化而來的。
有趣的是,并不是所有的真核生物都含有大量的內(nèi)含子。對于那些單細(xì)胞的真核生物,繁殖速度對于生存還是很重要的。俗話說,“活在狼群中,就得學(xué)狼叫”,所以這些單細(xì)胞的真核生物,像同樣是單細(xì)胞的原核生物一樣,都去除了大量的內(nèi)含子。例如裂殖酵母(Schizosaccharomyces pombe)每個(gè)基因平均只有0.9個(gè)內(nèi)含子,出芽酵母(Saccharomyces cerevisae)的內(nèi)含子含量更低,每個(gè)基因平均只有0.05個(gè)內(nèi)含子。而多細(xì)胞的真核生物,則在演化過程中不斷增加內(nèi)含子的數(shù)量,在人身上甚至達(dá)到每個(gè)基因平均有8個(gè)以上的內(nèi)含子。
線粒體的出現(xiàn)給真核生物帶來充足能源的同時(shí),也帶來了內(nèi)含子的入侵。為蛋白質(zhì)編碼的基因中內(nèi)含子的出現(xiàn),又迫使細(xì)胞形成細(xì)胞核以把DNA和核糖體分隔開來。這大概就是真核細(xì)胞出現(xiàn)的根本原因。其他的改變都是在這個(gè)基礎(chǔ)上進(jìn)行的。