第二章
姓氏里的遺傳密碼:Y染色體與姓氏分流
姓氏傳承的生物學原理
中國姓氏本質上來說是一種跟隨父系傳遞的標識,這也是全世界使用姓氏的大多數國家的共同特征。這可能和古代多數文化中男尊女卑的觀念,和以父系家族為主的社會結構有關。少數國家如西班牙則略有不同,西班牙人會繼承父母雙方的姓,不過在向下一代傳遞時,往往只取父姓,而把母姓忽略。因此長期來看,這實際上仍然是一種父系傳遞的標識。
由于姓氏沿著父系傳遞,理論上講,在傳統中國宗族社會里的大家族中,每個成員都可以追溯到古時共同的父系祖先,因此自古以來就有同姓“五百年前是一家”的說法。在歷史長河中,未必每個小家庭都能保存自己的家譜、清楚地說出自己幾十代的祖源,但是姓則容易保留得多,因此姓氏就成為中國人最有效的攀親方法,即所謂“同姓三分親”。
在現代之前,姓氏可以說是建立血緣關系最為有效的手段。然而隨著時代的推移和科學的發展,尤其是分子生物學的進展,我們發現實際上還存在一個比姓氏更有效、更可靠的工具,這種判斷血緣的利器就是Y染色體。
學過一點生物學的人都會知道人類的性別是由染色體決定的。女性的性染色體為XX,男性則為XY,人體有23對染色體。我們的各種遺傳特征就以基因編碼的形式儲存在這23對染色體中,其中22對是常染色體,并無性別差異,還有一對染色體,則男女大不相同。這對染色體起著決定性別的重要作用,它們被稱作性染色體。女性的這對染色體兩條基本一致,就稱XX;男性則明顯一大一小,就稱XY。生物學上性別的起源很早,不同生物也有不同的性別決定方式。有些生物如烏龜和鱷魚,性別純粹是由孵化時的溫度決定的,兩性染色體基本一致。有些生物如大多數鳥類則和人類相反,雄鳥的性染色體是一對同態的,稱為ZZ染色體;雌鳥的性染色體則一大一小,稱為ZW染色體。大多數哺乳動物則和人類一樣,性染色體為XY性別決定系統。
和其他XY性別決定系統的哺乳動物一樣,人類的繁衍也是采用有性生殖的方式。原始的單細胞生物繁殖時一般直接采用細胞分裂的形式,一個母細胞分裂成兩個子細胞。在人體中,很多細胞在需要增殖時也是采用這樣的策略。不難想象,在這個過程中,如果染色體不加以處理,每個子細胞就只能分到母細胞一半的染色體,長此下去肯定會功能嚴重失調的。因此體細胞正常分裂產生新細胞時,母細胞會復制染色體,來讓子代細胞的染色體數量和母細胞一致。
但是在生殖細胞,即精子和卵子形成時,會經過一次減數分裂。簡而言之,細胞分裂時每對染色體隨機抽取一條,最后形成的精細胞和卵細胞就只有23條染色體。當精細胞和卵細胞結合后,兩個細胞的各23條染色體又湊成了23對染色體。這就是有性生殖。由于男性的性染色體為XY型,在減數分裂過程中,有些精細胞分到了X染色體,有些分到了Y染色體。女性的卵細胞則只會有X染色體,精細胞和卵細胞結合后的胚胎的性別,就由精細胞提供了哪種染色體來決定。
這樣的有性生殖方式可以讓子代相比父代更多地發生基因上的改變,增加族群的基因多樣性,有利于適應環境選擇的進化。相對來說,采取無性生殖的生物,子代和父代的基因幾乎完全一樣,只有偶然發生的突變才會造成基因改變,當環境發生變化時,就很容易因為基因多樣性不足導致難以適應,甚至全軍覆沒。
不難想象,我們細胞中的每對染色體都有一條來自父親,一條來自母親。但是如果再向上追溯,事情就不僅僅那么簡單了。由于減數分裂時的隨機性,我們繼承自母親的染色體有的會來自外祖父,有的會來自外祖母;同理,繼承自父親的染色體則有的會來自祖父,有的會來自祖母。至于四位祖輩各自貢獻了多少條染色體,則并無定數。讓事情更加復雜的是,為了能夠獲得更高的基因多樣性,有性生殖的過程中還會發生基因重組。即我們生殖細胞的減數分裂過程中,某條染色體并不是完全來自父親或是母親,這一條染色體在減數分裂完成前會發生基因重組,即和與它配對的另外一條染色體交換部分基因,最后進入生殖細胞的染色體中會有部分基因來自父親,部分基因來自母親。
我們可以看出,減數分裂的機制決定了雖然一個人的基因一定是一半來自父親、一半來自母親,但是這一半來自父親的基因,并不是四分之一來自祖父、四分之一來自祖母,而母系也同理。按照統計學的理論,甚至有可能發生這種事件:在一個人的基因當中,來自父親的基因全部來自祖父,祖母的基因則完全沒有遺傳到,盡管事實上發生這種事的概率幾乎為零。
經過世代傳承,一個人本來的染色體在遺傳過程中就會散得七零八落。雖然在一般情況下,仍然可以通過常染色體的基因追溯一個人的祖源,但其結果就往往有一定的模糊性。
Y染色體則是一個突出的例外。由于Y染色體在進化過程中不斷丟失基因,現今的Y染色體除了決定男性的性別,已經喪失絕大部分的基因功能。Y染色體除兩端的片段,主體部分已經無法和X染色體進行基因重組。在減數分裂的過程中,Y染色體的核心部分因此就只能以完整的形態傳遞到精細胞。因此,粗略地說,男性的Y染色體只能來自父親,而父親的Y染色體又只能來自祖父。現今所有男性的Y染色體都是來自生物學上的直系男性遠祖。如果拓展一下思維,就會發現其實Y染色體的這種標識和通過父系傳遞的姓氏的功能非常類似。
相反,在卵細胞生成過程中,既可以傳遞來自父親的染色體,也可以傳遞來自母親的染色體。此外,女性的兩條性染色體仍然能夠順利配對并進行基因重組,就和其他22對常染色體一樣。男女的性染色體的不同,導致女性在基因上比男性有更高的冗余。這可以在一定程度上彌補細胞分裂時有時會出現的涉及整條染色體的重大錯誤。這些錯誤源自染色體沒有正常分離到子代細胞中,有的生殖細胞可能會較少分到染色體。如果X染色體不幸出現了缺失,由于缺乏備份,只有Y染色體的男性胚胎會在胚胎階段就直接死亡,女性則由于有另一套X染色體,在缺失一條X染色體的情況下仍然能夠長大成人,只是會有種種遺傳病表現,稱為“特納綜合征”。反過來說,生殖細胞也可能會多出額外的染色體,臭名昭著的常見遺傳病唐氏綜合征,就是第21對染色體有三條,導致患者出現各種嚴重生理失常。這種由于染色體不正確分離導致卵細胞為非整倍體的現象,在人類女性的卵細胞中其實頗為常見,女性卵子中有25%—50%會發生這樣的問題。幸運的是,多數情況下這種極端嚴重的基因錯誤會導致胚胎無法成活。
相對來說,男性精細胞雖然也會出現非整倍體的現象,但是概率要小得多。然而這并不意味著精細胞就不會出現錯誤。恰恰相反,相對于出現基因復制,精子形成甚至是一個“錯誤”的過程,它是一個不斷缺失的過程。
我們的基因由一個個堿基對排列組成,這些堿基分為四種,即腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)和胞嘧啶(C),正常情況下這樣的堿基對遵循非常嚴格的配對規則,即腺嘌呤一定和胸腺嘧啶配對,鳥嘌呤一定和胞嘧啶配對。這些堿基對會排列組成一個雙螺旋結構。細胞分裂時,這種雙螺旋結構拆開變成兩條單螺旋序列。當基因復制的時候,這兩條拆開的單螺旋上的每一個堿基再和新的堿基按照固有規則配對,這樣本來的一套雙螺旋就變成了兩套雙螺旋。
這種配對一般來說是比較精準的。但是就如人在工作中偶爾會出現疏失,機器運轉過程中會出現bug,負責復制基因的DNA聚合酶有時候也會出現配對錯誤。這種錯誤大約在每復制10000—100000個堿基時出現一次,算得上是個小概率事件。不過人體仍然有其他方式讓復制錯誤問題的影響更小。比如,有些DNA聚合酶有復查能力,假如不慎出現配對錯誤,DNA聚合酶會在復查過程中發現問題,隨即回退一步,并把配好的錯誤核酸切走。在DNA聚合酶自查后,新生成的DNA還會被另外的酶再次檢查,如果發現了未被檢查出來的復制錯誤,則會在適當位置切掉含有錯誤核酸的一段DNA, DNA聚合酶會再次復制新的DNA。
在諸多檢查機制下,人類的基因復制是個相當精確的過程。維持基因復制的準確性很重要,我們遭遇的一些疾病,如癌癥正是由于基因出錯造成的。基因是編譯蛋白質的編碼,在一段基因激活之后,就會通過生化過程最終合成身體所需要的蛋白質。在很多時候,這樣的小錯誤對于合成的蛋白質的功能不會產生明顯的影響。但是假如基因的改變造成蛋白質合成的失常,產生功能不正常的蛋白質,則就會給人的健康帶來重大問題。在盡量確保復制不出錯的同時,人類的免疫系統也會在出錯的情況下予以補救,譬如出現基因復制錯誤的細胞就有可能被免疫系統識別并扼殺。
全基因組復制時大約會產生0.3—3個沒有被抓到的錯誤。從受精卵到成為成年人會經歷大約47次基因組復制,共有14—140個基因發生突變。一個生殖細胞的基因組平均大約會含有30個突變。當然,不難想見隨著年齡增長和細胞的持續分裂,基因突變也會逐漸累積。
很多情況下,這樣的基因突變也未必會傳到下一代。假如突變沒有涉及生殖細胞,則下一代并不會繼承到這樣的突變。要影響到生殖細胞,不但突變的發生要相對早,而且在基因重組以及減數分裂等過程中也不能被篩除。同時這個突變也不能有嚴重到會導致胚胎死亡的負面影響。
Y染色體就是這樣一個基因突變的溫床。人類女性一生所有的卵細胞早在胚胎時期就已經形成。正常女性一生大約只會有400多個有效的卵細胞最終參與繁殖過程。與之相反,一個正常男性每天都會產生1億個精細胞。這些精細胞都是由一種干細胞,即精原細胞分裂得來。在最終產生精子前,精原細胞會進行多次的有絲分裂以滿足數量龐大的產精需求。精原細胞單次復制基因時出錯概率比其他細胞還要低一些,這大概是由于精子形成過程中需要不斷多次復制產生的對沖機制。盡管如此,在概率累加的作用下,人類從父親那里遺傳到突變基因的概率還是比母親大得多(高出4—6倍)。
Y染色體是一條很小的染色體,基因突變的概率事件未必會落到這條染色體上。假如Y染色體發生了基因突變。生物進化已經讓人類在內的大多數雄性哺乳動物適應第23對染色體上的大部分功能性基因只存在于X染色體。Y染色體上的DNA除了控制性別和雄性生育能力的基因,充斥著大量重復而且功能不明的“垃圾序列”。因此Y染色體上的堿基對突變以后造成的影響一般很有限,多數情況下不會因為造成攜帶者死亡或者無法繁殖自動從人類基因組中清除。嚴格來說,由于概率問題,大多數突變發生的位置都在這些“垃圾序列”上,并非“基因突變”,但是就父系溯源來說,這些垃圾序列上的隨機突變卻有非常大的價值。
Y染色體擁有一個非常重要的特質,其他的染色體可以通過基因重組把突變的堿基對置換掉,而Y染色體不能輕松地和X染色體交換序列。由于X染色體和Y染色體胡亂重組會導致諸多不良后果,進化使得X-Y基因重組會被抑制,Y染色體只有首尾大約5%的區域可以進行基因重組。因此Y染色體大部分區域會存留著已經發生的突變。今天的Y染色體之所以比X染色體短了那么多,其原因就在于歷史上發生過一些刪除突變的過程,導致基因丟失。在漫長的進化過程中,Y染色體已經丟了本有的1438個基因中的1393個。
因此,作為突變溫床的Y染色體,就會忠實地記錄一個男性從父系祖先到自己所經歷的所有突變。這樣的突變以大體一致的速率進行。至于這些突變能不能被檢測到,就得看測序技術水平,通過確定的親屬關系反向推算。當前一般技術條件下,Y染色體大約每五六代人,即140年左右會出現一次可檢測到的SNP突變。通過檢測男性Y染色體上的突變次數,我們就可以推測兩個男性的共祖關系。
這種分析聽起來可能很復雜,其實只需要遵照簡單的邏輯關系對發生突變的堿基對進行分析即可。Y染色體上的堿基對突變可以分為上游和下游。在搜集了足夠多的樣本之后,我們可能發現一批沾親帶故的男性全部共享某個Y染色體上的甲突變,但是其中只有一部分會有乙突變。屬于乙突變的那部分人有一部分又會有丙突變。然而沒有乙突變的人,雖然可能會有其他突變,但是不會有丙突變。
這樣一來,這批男性的共同祖先在某一代(A)發生了甲突變,這就是上游的突變。發生了甲突變之后這個家族的某個男性后代(B)發生了乙突變,但是他的兄弟們并沒有發生乙突變。因此只有B的后代才會有乙突變。B的后代中C又發生了丙突變。甲、乙、丙三個突變就是上下游的關系,只有擁有上游突變的人才會擁有下游的突變。B的兄弟們的后代并無B身上發生的突變,因此更不可能有B的后代才會有的新突變了。由于Y染色體突變的速率較為恒定,甚至還可以根據二者Y染色體上的突變情況和這些突變之間的關系判斷出兩個男性的共祖大概距今多少年。
單個堿基對在一代男性的Y染色體上出現突變的概率大約為3000萬分之一。盡管理論上存在某個堿基發生兩次獨立突變或者湊巧變回原來的可能性,但是這樣的事件出現概率極低(大約九百萬億分之一),而且也可能通過分析其他突變予以排除。毫無疑問,研究Y染色體上的突變是一種極其可靠的確定父系血緣關系親疏的工具,甚至可能比自古以來的姓氏更加可靠。
那么,這種21世紀的新工具又會給中國人的姓氏問題帶來哪些新的視角呢?
近年的研究使得我們已經把全世界的Y染色體出現的突變予以歸類總結,判斷各種突變的上下游關系,從而形成一個樹形結構的Y染色體單倍型進化樹。
在一個理想世界里,Y染色體單倍型和姓氏傳承上有高度相似性。假如同姓五百年前是一家確為事實,則同姓的Y染色體單倍型應該較為相似,至少應該比異姓的更相似。
在實際生活中,同姓到底是不是一家,這是很難保證的。一般來說,如果是居住地接近的同姓鄉里鄉親,則可能會清楚記得兩人在若干代前是一個老祖宗,但是如果碰上遠方來的同姓,在沒有宗譜的情況下,就很難確認雙方是不是同宗同源,如果是同宗,又是多久之前分化的呢?在這點上,中國姓氏的發源古老反倒未必對溯源有幫助,而是制造了諸多困難。反例則是泰國的姓氏。泰國姓氏普及于20世紀初,1913年,泰國要求全體國民采用姓氏。當時造姓的要求是長度不得超過十個泰文字母,以及不得和已有姓氏重復。以20世紀初期的科技水平,這個要求可能有些過于超前了。在計算機未普及的年代,讓全國人民造姓不重復是個難以完成的任務。不過至少從原理上來說,假設這樣的要求得到良好貫徹,泰國的所有姓氏都應該有且只有一個來源。從今天的情況看,目前姓氏完全一樣的兩個泰國人確實很少不沾親帶故,因此假如有人根據姓氏大規模測試泰國男性的Y染色體序列,由于從取姓發展到現在剛剛過百年,絕大多數同姓男性Y染色體單倍型之間應該幾乎一致或者只有極少數突變。