- 新生兒基因篩查
- 趙正言 周文浩 梁德生主編
- 2783字
- 2025-03-19 15:08:05
第二節 基因的結構
基因作為由一段DNA序列組成的功能單元,在大多數情況下都會生成相應的蛋白質,進而決定或影響生物體的表型。這一段DNA序列,不僅包含了編碼蛋白質的序列信息,還包含了參與調控由DNA到RNA到蛋白質整個過程的元件和信息。對于不產生蛋白質的非編碼基因,也包含類似的DNA序列信息和調控機制。圖1-1(見彩圖)顯示了真核生物中常見的基因的結構和組成。

圖1-1 基因的結構
一、外顯子和內含子
根據“中心法則”,DNA首先被轉錄為信使RNA(messenger RNA,mRNA),然后 mRNA 被翻譯為蛋白質。當基因發生轉錄時,DNA首先會被轉錄為信使RNA前體(pre-mRNA),然后premRNA中的一部分序列通過RNA剪切(RNA splicing)的過程被去掉,剩下的序列則被連接在一起最后形成成熟mRNA(mature mRNA)。被保留在成熟mRNA中的序列對應的DNA序列被稱為外顯子(exon),而被RNA剪切過程去掉的序列所對應的DNA序列叫內含子(intron)。蛋白質編碼DNA序列被非編碼的內含子序列隔開形成不連續的外顯子這種現象最初在病毒中被發現,后來被證實在所有真核生物基因組中都存在內含子,而原核生物的基因中則不存在或僅有很少的內含子結構。
對于編碼蛋白的基因,外顯子序列除了包含編碼蛋白信息的編碼序列(coding sequence,CDS),還包含了非編碼序列(noncoding sequence)。編碼序列依照遺傳密碼的規則,每三個堿基一組對應一個氨基酸,或是終止密碼子作為停止蛋白質合成的信號。因此編碼序列的長度是3的整數倍,兩端分別是起始密碼子和終止密碼子,蛋白質的翻譯過程則從起始密碼子開始依次進行,直到終止密碼子而停止,形成一條完整的肽鏈,最后肽鏈經過折疊、剪切或修飾而成為具有完整功能的蛋白質。
在成熟mRNA中,緊鄰起始密碼子的上游和終止密碼子的下游的序列通常不會翻譯合成為肽鏈,因此也稱為非翻譯區(untranslated region,UTR)。起始密碼子上游的非翻譯序列稱為5'端非翻譯區(5'UTR),也叫前導序列(leader),而終止密碼子的下游的非翻譯區稱為3'端非翻譯區(3'UTR),也叫尾隨序列(trailer)。雖然非翻譯區不包含編碼蛋白質翻譯的信息,但是包含了調控蛋白質翻譯的重要元件。在5'UTR中,有一段序列可以被核糖體識別并結合,從而啟動蛋白質的翻譯。而3'UTR則在蛋白質翻譯終止過程中起到關鍵作用,并且參與調控轉錄后修飾的過程。由于外顯子序列的重要性,所以在進化上,外顯子序列(包括編碼序列和非編碼序列)通常都高度保守。
雖然內含子序列在形成成熟mRNA的過程中被切除,但是內含子序列也在RNA剪切和基因轉錄的調控中起到重要的作用。首先,RNA剪切發生的位置,也就是外顯子和內含子邊界,主要由緊鄰邊界的內含子一側兩個堿基決定。在真核生物中,靠近5'UTR端或是包含在5'UTR內的內含子通常比其他內含子長,一個可能的解釋是這些靠近5'UTR的內含子包含了更多調控基因轉錄的序列,已經有很多證據支持這個假說。在內含子中也存在其他調控基因轉錄的DNA元件,包括增強子(enhancer)、沉默子(silencer)和調控上游啟動子的序列。而位于3'UTR的內含子中存在可以調控轉錄終止的序列。如人β-珠蛋白基因(HBB)的第二個也是最后一個內含子,移除這個內含子或置換成其他內含子,會顯著地降低RNA轉錄的3'末端的形成。內含子中還包含了影響RNA核轉運及RNA穩定性的序列元件。最近的研究表明,真核生物的內含子序列可以降低由轉錄引起的遺傳不穩定性。此外,有些基因位于其他基因的內含子或UTR內,稱為巢式基因(nested gene)。巢式基因在人類基因組中比較常見,目前已知有功能的巢式基因有158個,以及超過200個假基因。
除了已知的這些功能序列或元件之外,內含子中還有大量的序列的功能還不明確。與外顯子相比較,不同物種之間的內含子序列相似度比較低,內含子序列在進化上顯示出較低的保守性。自從內含子被發現以來,內含子為何存在這個問題一直存在很大爭論。一種流行的理論認為,內含子是一種“自私元件”,即這些序列并不影響生物個體的生存優勢,僅是為了讓自身可以復制傳遞下去。最近的研究表明,真核生物基因的這種外顯子-內含子的不連續序列結構,與蛋白質的功能域有顯著的重合,因此這種序列結構通過增加蛋白質編碼序列的重排,加速了蛋白質的進化。此外,內含子可以幫助酵母在營養不足的環境下更好地生存。而在進化上,內含子是何時以及如何出現的,也是一個懸而未解的問題。一種被廣泛接受的假說是,內含子起源于真核生物進化早期的線粒體,因為線粒體被認為是來源于被吞噬的古細菌,而古細菌中存在一些類似于內含子的序列。在某個時間,這些內含子序列被整合到了宿主基因組,并通過擴增和重組擴散到整個基因組中。最近的研究表明,在藍藻中DNA轉座子(transposon)產生了成百上千內含子,而這可能是真核生物內含子進化中一種通用的機制。
二、啟動子和終止子
當基因DNA序列首先被轉錄成mRNA前體時,RNA轉錄酶從轉錄起始位點(transcriptional start site,TSS)開始轉錄,通常這個位置對應第一個外顯子的5'端。轉錄的過程主要是通過啟動子(promoter)來調控。調控轉錄起始的核心啟動子元件,一般分布在TSS的上游和下游各40bp范圍之內。真核生物核心啟動子元件之一是TATA框(TATA box),也稱為 Goldberg-Hogness box,是一段高度保守的DNA共有序列(5'-TATAWAW-3',W代表A或T)。在原核生物中,與TATA box對應的共有序列稍短(5'-TATAAT-3'),也被稱為 Pribnow box。TATA box可以與TATA結合蛋白(TATA box binding protein,TBP)結合,然后通過與RNA聚合酶及其他轉錄因子結合形成轉錄必需的起始前復合體(preinitiation complex,PIC)。核心啟動子的另一個重要組成序列是起始子(initiator,Inr),這段序列與轉錄起始位點重合。在缺乏TATA box的啟動子中,起始子通常與位于TSS下游的下游啟動 子 元 件(downstream promoter element,DPE)共存。除了這三種在啟動子中最常見的基序(motif),人類基因啟動子中還存在一種稱為下游核心元件(downstream core element)的基序。這些元件會分別與不同的轉錄因子結合,最終形成有功能的PIC。此外,還有一些基因的啟動子并不包含TATA box序列,但是這些啟動子啟動轉錄也需要TBP的參與。
終止子(terminator)是位于最后一個外顯子3'端的一段DNA序列。這段序列標記了轉錄結束的位置,從DNA模板新合成的mRNA包含了這段序列帶有的信號,讓RNA聚合酶從轉錄復合體中釋放出來,從而讓轉錄結束。
三、其他調控元件
在基因的轉錄過程中,除了核心啟動子之外,還有其他DNA序列或元件參與整個過程的調控。增強子(enhancer)是長度 500~1500bp的DNA序列,可以位于啟動子上游或下游,包括內含子區域。增強子距離啟動子的距離從數kb到數Mb,可極大地提高相應啟動子的基因轉錄活性。通常一個啟動子可以受到一個或多個增強子的調節,而這種基因轉錄的調節可以有空間特異性或時間特異性,即增強子可以調控基因在不同的組織或細胞類型中在特定的時間發生轉錄。增強子中含有特異的DNA序列,能與轉錄調控因子(特別是轉錄激活因子transcriptional activator)結合。結合了轉錄因子的增強子通過形成DNA環形結構,將這些轉錄調控因子帶至目標啟動子附近與PIC一起調節轉錄。增強子是一種順式作用元件(cis acting element),即增強子只能調節位于同一條DNA分子上的啟動子。沉默子(silencer)是與增強子特征非常相似的一種調控元件,也包含一些特異的DNA序列,這些序列可以直接或間接地結合轉錄抑制因子(transcriptional repressor),從而抑制基因的轉錄。