1.2 系統發育基因組學
1.2.1 物種進化和多樣化機制
陸生植物進化中多倍體發生導致加速的基因組變異(圖1-2),這是與其他真核生物迥異之處,也與植物進化的關鍵創新密切相關。基于迅速增加的基因組資源,可以將基因組改變與藥用植物的植化和生理特征的起源聯系起來??赏茰y植物家族樹關鍵節點的祖先基因內容。集中發生于約31900萬年和19200萬年前的祖先WGDs(全基因組倍增)加速了調控基因的多樣化,它們對種子和花的發育至關重要,并負責關鍵創新,導致種子植物和有花植物迅猛增加并占據優勢。被子植物中廣泛出現的多倍體可能是產生新基因和擴展某些基因家族的主要因素(Hofberger等,2013)。然而絕大多數基因家族以近中性過程丟失絕大多數倍增基因拷貝,并發現幾個基因家族主動選擇單拷貝狀態。目前將基因組修飾與物種形成、多樣化和植化/生理創新有機聯系的研究還很少,故難以深刻闡明生物多樣性和化學多樣性的內在機制。蓬勃發展的進化基因組學顯著改善系統發育樹分辨率,使研究者找到負責特定進化創新的特定基因。更精準地理解植物進化有助于豐富植物多樣性知識庫,包括對人類健康至關重要的藥用性狀。

圖1-2 多倍體化對植物基因組和表型的影響
(實線粗箭頭:同源多倍體效應;虛線箭頭:異源多倍體效應;細箭頭:兩類多倍體共有效應;符號:效應的方向)
案例研究對于闡明WGD和次生代謝(次代)路徑多樣化的關聯十分重要。WGD和串聯倍增促進了十字花科芥子油苷路徑多樣化(圖1-3)。至少52個擬南芥生合和調控基因參與芥子油苷生物合成(生合)。巖芥菜屬(Aethionema arabicum)位居其他十字花目物種基部,包括67個芥子油苷生合基因,絕大多數在擬南芥有直系同源基因,表明有同線型關系。擬南芥45%蛋白質編碼基因有多于一個拷貝,而多達95%擬南芥和97%巖芥菜芥子油苷路徑基因有多個拷貝,說明該防御路徑發生了特別顯著的多樣化。序列聯配和系統發育分析表明芥子油苷路徑基因的顯著倍增發生在最后一次共同的WGD事件。串聯倍增和后續的亞功能化和新功能化進一步增加了芥子油苷次代物的遺傳多樣性和化學多樣性,強化了表型塑性和適應性。更重要的,多樣次代物廣闊的化學空間在藥物發現方面潛力巨大。倍增基因拷貝也解釋了最大的植物天然產物類別——萜類的多樣化過程(Hao等,2015,2016)。追蹤植物萜類生合和多樣化之根源揭示了雙子葉和單子葉植物進化出迥異的次代路徑組裝的基因組機制。

圖1-3 硫代葡糖苷代謝產物的多樣化機制
倍增基因在鼠耳芥屬蛋白質編碼基因中占比,并與擬南芥(At)GS(芥子油苷)和阿拉伯巖芥菜(Aab)GS基因比較,根據Hofberger等(2013),倍增基因有三種情況:保留的ohnolog(基于功能模塊組織的劑量敏感的基因聚類)、串聯倍增(TD)和基因轉位倍增(GTD)。圖示各倍增類型基因占比。譜系進化中GS代謝塑性主要源于增加的ohnolog保留和TD
除了多倍化,異域歧異、基于氣候波動的歧異、雜交和漸滲,以及傳粉介導的隔離也是某些藥用物種進化的機制,尤其在生物多樣性熱點地區,如青藏高原(QTP)(肖和夏,1973a~1973f)。隨著QTP廣泛抬升發生了規模宏大的快速物種多樣化,產生了眾多形態各異和植化表型迥異的新種。形態和代謝表型創新看起來都是具有生態適應性的,其潛在分子機制仍難以捉摸。系統發育基因組學是生物進化和基因組學的交叉學科,是將基因組數據用于進化關系重建的綜合分析,因此需要系統發育研究方法和基因組學技術的緊密配合。系統發育研究是比較分析單個基因或少數幾個基因序列(Hao等,2008a,2008b),也常結合其他類型數據,例如形態學、細胞學和植物化學(朱和肖,1991;郝等,2012)數據。系統發育基因組學基于全基因組測序時代之前的分子系統學研究,通過比較全基因組序列或至少大部分基因組序列來全面獲取對進化關系重建有用的信息(郝等,2014,2015)。目前該領域研究包括以下幾方面。
1.2.2 基因功能預測和進化推演
現存植物已鑒明的有307700種,估測上限45萬種,提示植物多樣性的潛在空間巨大。在進化史上均經歷多次WGD,倍增基因拷貝在基因組中通常以保守的同線塊(syntenic block)形式存在。在植物進化過程中,基因組大小變化是一種相對頻繁的事件,這些變化一般并不與基因多少及順序變化相關聯?;驍盗考绊樞虻谋J匦苑Q為同線性?;蚪M倍增顯著影響新性狀起源(圖1-4),近年來植物次生代謝路徑多樣化與WGD有關的例子越來越多。倍增基因拷貝可以解釋萜類和硫代葡糖苷等多基因路徑合成的次生代謝產物的多樣化過程。次生代謝基因的串聯倍增及隨后發生的亞功能化和新基因化過程進一步增加了次生代謝產物的遺傳多樣性和化學多樣性,增強了植物適應生態環境變遷的能力,顯示了植物次生代謝產物化學空間在藥物發現方面的巨大潛力。被子植物(有花植物)中已發現次生代謝產物超過20萬種,可能大部分源自復雜性狀的快速創新。

圖1-4 核心真雙子葉植物系統發育和基因組倍增歷史示例
箭頭代表六倍化;三角代表四倍化。目前未發現以下物種基因組在成種后進一步多倍化的證據:馬鈴薯,茄子,紅辣椒,煙草,咖啡,葡萄,木瓜,可可,草莓和桃。綠茄、黏果酸漿、番茄和許多物種基因組數據很少
甾體糖生物堿(steroidal glycoalkaloid,SGA)具細胞毒活性,能抑制乙酰膽堿酯酶,破壞細胞膜功能。研究了茄屬(Solanum)六個野生種和種植馬鈴薯SGA代謝路徑五個基因的自然變異和全基因組SNP基因分型(Manrique-Carpintero等,2013)。5個基因包括屬于初級代謝的3-羥基-3-甲基戊二酰輔酶A還原酶1和2(HMG1,HMG2)以及2,3-鯊烯環氧酶(SQE),屬于次級代謝的茄堿半乳糖基轉移酶(SGT1)和葡糖基轉移酶(SGT2)。測序3.7kb DNA檢測到354個變異。內含子中發現的變異多于外顯子,次生代謝途徑的關鍵酶編碼基因中的變異多于初級代謝基因。dN/dS<1以及Tajima’s D檢驗為負值提示存在純化選擇和遺傳搭車(hitchhiking,指看似對生物體適應性及進化沒有貢獻的搭車客突變)。比較核苷酸多樣性估計值和dN/dS提示初級代謝基因經受的選擇限制強于次生代謝途徑的關鍵酶編碼基因,可解釋次生代謝多樣性。發現SGA含量低的馬鈴薯和SGA含量高的S. chacoense的HMG2、SQE、SGT1和SGT2各有特定的SNP基因型。Illumina SNP芯片分型發現八個有信息SNPs,其不同組合可區分SGA含量高中低的不同代謝表型。這類研究有助于評價SGA在分離或關聯作圖群體中的差異分布,對道地藥材研究具參考價值。
具抗癌抗菌活性的苯并嗪類防御化合物存在于禾本科(Gramineae)、毛茛目(Ranunculales)和唇形目(Lamiales)多種植物中,其生物合成涉及九個酶(Dutartre等,2012),最終形成糖基化產物存儲。其中七個基因(Bx1~Bx6和Bx8)在玉米四號染色體短臂末端形成一簇(cluster),四個P450基因(Bx2~Bx5)均屬于CYP71C亞家族。推測在禾本科輻射進化之前TSA(色氨酸合成酶a亞單位)基因和一個與Bx2相似的CYP71C祖先基因數次倍增,并且Bx8征募到近旁,從而形成次生代謝途徑的關鍵酶編碼基因簇。但是Bx6和Bx7的起源需要進一步研究。與Bx2相似的CYP71C祖先基因的功能與苯并嗪合成無關,基因倍增后Bx2~Bx5基因的幾個位點經受正選擇,發生功能歧異,形成了目前酶特定的生化性質。已測序的禾本科Bx基因區域缺乏同線性,而TSA基因區具保守的同線性,說明基因倍增后發生重排,導致Bx1和Bx2的新拷貝在禾本科共同祖先的一個染色體末端成簇。成簇有利于相關基因共分離,末端染色體的定位則便于基因重排,也便于有關合成基因的進一步征募。這些奠基事件(founding event)和延伸(elongation)事件對于后續的苯并嗪生合基因簇的進化至關重要。雙子葉植物尚未發現CYP71C,很可能雙子葉和單子葉植物的苯并嗪生物合成途徑彼此獨立進化,即屬于趨同進化。生氰糖苷的生物合成途徑也存在類似的進化現象(Takos等,2011)。對次生代謝產物生物合成途徑的深入研究有助于育種方案的理性設計,優化藥用化合物的生產,實現基于生物技術的生產方式改進。
研究多基因家族的進化時,基因樹比物種樹更有助于了解成員基因的進化歷史和基因倍增過程。通過對基因樹和物種樹沖突進行解釋,可推測進化機制,包括快速輻射分化、雜交/基因漸滲、不完全譜系分選、水平基因轉移、旁系同源基因、基因倍增/丟失以及基因重組等。這些進化機制也可部分地解釋近緣物種的化學表型多樣性,有助于推測藥用化合物的來源和轉化路徑。次生代謝產物生物合成基因家族和轉錄調控基因家族均可在系統發育框架內挖掘分析全基因組有關序列。
1.2.3 構建和理清物種進化關系
例如,基于桔???8個種葉綠體基因組的基因排列順序構建系統樹(Cosner等2004),從全新的角度闡述了桔???8個屬間的系統發育關系。采用高通量測序平臺獲得天南星科32屬線粒體基因組序列(Henriquez等,2014),發現線粒體系統樹支持率低且與葉綠體系統樹不一致?;谌~綠體全基因組序列的系統樹表明水芋屬(Calla)和落檐屬(Schismatoglottis)在一個主枝基部聚在一起,得到形態學和細胞學證據支持。植物線粒體DNA的基因順序可能進化較快,但是核苷酸序列的進化速率僅為動物的1%。葉綠體DNA核苷酸序列的進化速率比線粒體快3~4倍,目前在種間進化關系研究中應用最多,如對菊分支植物(asterids)、人參(Zhao等,2015)、銀杏(Wu等,2013)、金殼果科(Malé等,2014)和金虎尾目(Xi等,2012)的研究。但是葉綠體全基因組數據不足以解決經歷快速分化的類群,如姜目(Barrett等,2014)。結合大量核基因組數據全面分析十分必要。單拷貝基因在被子植物基因組中比較常見,肖培根研究組基于29個已測序基因組的高質量數據實現了單拷貝基因的大規模識別和進化表征(Han等,2014),發現基因組倍增區塊(duplicate block)數量和單拷貝基因數量呈顯著負相關。17%單拷貝基因位于細胞器基因組,GO注釋屬于結合(binding)和催化活性類別的較多。真雙子葉植物基因組中,單拷貝基因比非單拷貝基因具有更強的密碼子偏性。RNA-Seq數據證實了部分單拷貝基因相對高的表達水平。與其他植物不同,禾本科基因組中單拷貝基因的密碼子有效數量(Nc)與密碼子第三位G+C含量(GC3)呈顯著負相關。Ka和Ks值提示進化上單拷貝基因比非單拷貝基因更保守。對可變剪接的選擇約束(selective constraint),單拷貝基因弱于低拷貝數基因家族(1~10旁系同源基因)成員,但是強于高拷貝數基因家族(>10旁系同源基因)成員。聯用各基因組共有的單拷貝基因序列得到分辨力佳的系統樹。加上內含子序列提高了分支支持率,但是得到的系統樹與未加時不一致。建樹時包括內含子序列可能更適合較低的分類學水平。單拷貝基因和非單拷貝基因經受的進化約束明顯不同,有些表現出物種特異性,尤其在真雙子葉和單子葉植物間。
藥用植物多樣性是藥用植物與環境形成的生態復合體以及與此相關的各種生態過程的總和,有遺傳多樣性、化學多樣性、居群多樣性、藥用物種多樣性、根際微生物多樣性和生態系統多樣性等多個層次。對于物種不均勻分化程度較強的地區,在解釋氣候生態因子與藥用植物多樣性之間的關聯時,要充分考慮進化過程的影響。如中國西南地區的“天空之島”(何和蔣,2014),在第四紀形成了豐富的藥用植物資源,許多藥用族屬仍處于激烈分化過程中,如毛茛科鐵線蓮屬、烏頭屬和翠雀屬等。全葉綠體基因組數據是細胞器尺度的超級條形碼,可用其研究分布于不同地理位置的同一物種(如道地藥材)的種內變異和地理親緣學。但葉綠體基因組只相當于一個基因座,葉綠體基因組和核基因組在居群水平的應用可為研究道地藥材起源、種內分化時間和分化強度提供線索。種內譜系關系的確立可重現居群的進化歷史,是更細致的系統發育重建。
1.2.4 預測和追溯側向基因轉移
側向(水平)基因轉移在微生物進化中廣泛存在的事實從根本上動搖了生命之樹的假定形態。已發現很多原核和真核生物間的側向基因轉移,相當多藥用植物和其內生細菌/真菌具有相似的次代物生物合成路徑,其隱含的系統發育基因組學規律有待揭示,這將有助于藥用植物和其內生菌互作的研究,為開發植物藥資源提供參考。