说起“巨无霸”,你最先想到的是什么?
是汉堡中的销量王者?《变形金刚》中力大无比的机器人?还是世界上体型最大的生物,比如重达180吨的蓝鲸和高达115米的北美红杉?
今天要讲的这位,虽然外表平平无奇,却在近日成为真核生物界新晋的基因组“巨无霸”,它就是来自梅溪蕨属(Tmesipteris)的T. oblanceolata(为方便阅读,下文简称其为“梅溪蕨”,种加词oblanceolata指“倒披针形的”)
这一称号实至名归,因为梅溪蕨的基因组大小达到了惊人的160.45 Gb!**它同时打破了三项世界纪录——“最大的蕨类植物基因组”、“最大的植物基因组”和“最大的基因组”。**此前,后两项纪录一直由基因组大小为148.89 Gb的日本重楼(Paris japonica)自2010年起保持着。
“160.45 Gb”是个什么概念呢?
这还得从什么是基因组,基因组的大小及其如何衡量说起。
Part.1
**形容基因组有多“大”?**不论斤也不论两
基因组有两个层面的含义:在物种水平上,基因组指某一物种所有个体极度相似但略有差异的遗传信息;而在个体水平上,基因组指存在于某一个生物体内所有细胞中的遗传物质的总和,包括DNA或RNA(部分病毒)。在生命的宏伟诗篇中,DNA是那神秘的编织者,用四种基础的字母——腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)编织出无尽的遗传密码。正如多米诺骨牌一般,每一块骨牌的倒下都引发连锁反应,这些碱基的排列组合,决定了生物的多样性,让每一个生命体都拥有其独特的遗传蓝图。那么,我们如何衡量遗传信息有“多少”呢?一般来说,衡量一个生物的遗传信息有三种方式:
(1)以重量计算的C值,单位通常是皮克(10-12克,pg);(2)以分子量计算,单位为道尔顿;(3)以核苷酸碱基(ATCGU)对的数量表示。以核苷酸碱基对的数量来表示是衡量基因组大小最常用的方法。
和计算机存储容量单位类似,我们将一个碱基对的“容量”定为1 bp(base pair),如果将碱基对连接起来,一千个为1 Kb,一百万个为1 Mb,十亿个则为1 Gb。但与计算机存储容量不同的是,计算机存储大小的进率是1024,而基因组大小的进率是1000。那么如何测定一个物种的基因组大小呢?目前,我们可以通过流式细胞术、K-mer分析法和基因组从头测序的方法来估算,这三种方法在评估基因组大小的精确度上依次提高,但相应的,它们的技术难度、准确度和成本也随之增加。随着三代测序技术的迅猛发展,基因组测序的成本已经显著降低,如今完成一个1 Gb基因组的深度测序、组装及注释的价格已经降至10万元内了。然而,即便成本大幅下降,对于160 Gb的梅溪蕨基因组这样庞大的项目,其高昂的费用仍然只有少数财力雄厚的“土豪”团队能够承担。再者,三代测序组装基因组前一般会用流式细胞术或K-mer法对基因组大小进行“摸底”。于是,在这项研究中,科研人员首先安排上了较为“经济实惠”的流式细胞术估算梅溪蕨基因组大小。流式细胞术的原理是通过制备细胞核悬浮液,对核酸进行荧光染色,并使用已知基因组大小的物种作为参考,根据两个物种间相对荧光密度(DNA含量)峰值的横坐标,对基因组大小进行等比例计算。Part.2
**大大的基因组,却有小小的身体?**尽管梅溪蕨拥有“巨型”基因组,但其植株看起来却相当迷你且不起眼。梅溪蕨属是松叶蕨科(Psilotaceae)下的一个小属,包含15个种,其中12种都具有附生属性。本文的主角T. oblanceolata梅溪蕨比较罕见,它在西南太平洋的新喀里多尼亚岛及一些邻近岛屿上被发现,株高最多15 cm。梅溪蕨属不仅植株迷你,也是科学家眼中很小众的类群,到目前为止,该属中只报道了两个物种的基因组大小,即四倍体T. tannensis(73.19 Gb)和八倍体T. obliqua(147.29 Gb),这两者都拥有巨型基因组。来自邱园的植物学家Ilia J. Leitch教授是这项研究的参与者之一,她用了一个形象的比喻来描述梅溪蕨的基因组大得有多夸张——如果把其细胞内缠绕折叠的DNA像抽丝一样展开,长度可超过100米,相比之下,人类基因组大约为3.1 Gb,展开后每个细胞中的DNA长度仅为2米左右!如果按照字母和汉字的大小比例,将两对碱基算一个字节,梅溪蕨的基因组可以写下11万本《红楼梦》(73.1万字/本),相当于一个图书馆的藏书量了!
那么,基因组大小和生物体大小之间是否有某种关联?对一个物种来说,基因组越大越好吗?其实,著名的“C值悖论”已经回答了第一个问题,该理论提出物种的基因组大小(C值)和它进化的复杂性之间是没有严格的对应关系的,基因组大小和生物体大小就更没有关系啦。而且与人们设想的不同,拥有更大的基因组通常并不是一种优势。这是因为,基因组越大,合成的DNA就越多,需要的能量和营养物质也越多,同时,在每次细胞分裂时复制基因组的能量需求也越高。以植物为例,拥有大量DNA的通常都是那些生长缓慢的多年生植物,它们的光合作用效率较低,并且需要更多的营养物质才能生长,繁殖和产生后代更缓慢,适应环境也可能更缓慢。Ilia J. Leitch教授认为,想要管理好如此庞大的遗传信息,就像**“试图在拥有数百万本书的图书馆中,找到几本有关如何在如此庞大的DNA中生存的指导书”**一样荒谬,毕竟基因组中,仅有很小一部分的DNA由编码蛋白质的基因组成。那么,拥有如此庞大基因组的梅溪蕨是如何存活下来的呢?它又是如何管理基因组中复杂的遗传信息的呢?我们首先要搞明白梅溪蕨如此庞大的基因组从何而来。Part.3
想要让基因组“疯狂扩张”****有两种方法可以实现植物的基因组大小具有惊人的差异性,目前已知基因组最小的植物是狸藻科的一种食虫植物——旋刺草(Genlisea aurea),它的基因组大小只有0.0636 Gb,因为梅溪蕨的加入,使得植物基因组大小的变化范围扩展到了惊人的2500倍(160.45/0.0636)。目前的研究认为,基因组大小的变化主要由两类因素驱动。1. 基因组多倍化
指某物种通过染色体倍增的方式导致多套染色体共存于同一细胞核中,形成稳定遗传的新物种的现象。这就类似于多倍体同时点了好几份基因组的“豪华套餐”,例如稻属中,基因组分别为400 Mb和600 Mb左右的二倍体斑点野生稻和药用野生稻杂交并多倍化后,产生了异源四倍体小粒野生稻,其基因组达到1Gb。2. 重复序列的扩张
基因组中重复出现的DNA序列叫做重复序列,例如转座子(一类能够在染色体上自主复制和位移的DNA序列)。由于大多数转座子不具备基因编码能力,因此曾被叫做“垃圾序列”。然而,随着科学的发展和研究的深入,科学家也发现,重复序列不仅是大型植物基因组的重要组成部分,也是基因组进化的重要驱动因素。以寄生生物为例,一般来说,它们为了减少自身负荷和能耗,会尽可能让基因组精简,但寄生花却拥有3.5 Gb的大型基因组,其中就有高达90%的序列由高度重复的转座子组成。尽管它的基因组看起来十分“巨无霸”,但事实上大部分基因的结构都非常简单,且基因丢失数量极高,是名副其实的“虚胖型选手”。虽然梅溪蕨的基因组还未被解析,细胞学数据也暂未被收集到,我们暂不清楚蕨类植物是如何应对如此不必要的巨型基因组带来的后果的。但是,**科学家们猜测,梅溪蕨的基因组“巨无霸”套餐是这样定制的:多倍体身份or“虚胖”的冗余序列?它才不做选择,全都要了!**多倍体身份
相较于被子植物,蕨类植物的细胞中通常拥有较高的染色体数目,这种现象也被称为“染色体囤积综合征”,梅溪蕨属的单套染色体组中的染色体基数就达到了x = 52。此外,现有证据发现梅溪蕨属内不乏四倍体、八倍体等,这简直buff叠满了呀!高度的序列
研究者们推测,梅溪蕨属多个物种的巨型基因组可能与其“附生”的属性有关,或许与拥有“寄生”属性的寄生花相似,其基因组中也存在高度冗余的重复序列。
此外,根据以往大型基因组的研究案例,我们也可以大胆推测:梅溪蕨基因组中或许存在一些高度扩张的基因家族,对其适应环境有着重要作用;梅溪蕨基因组中或许也发生了大量的基因丢失事件,只有少量控制关键性状的基因得以保留,这些基因或许是梅溪蕨成功管理其巨型基因组的关键;梅溪蕨现有群体如此小,是否曾经历了瓶颈效应,使其遗传多样性降低,积累了大量有害突变,这个物种未来是否会面临生存的危机,是否需要采取保护措施......当然,这一切问题的答案,还是坐等“土豪”团队解析完基因组后,由进化生物学家来揭晓吧。Part.4**还有哪些基因组“巨无霸”?**除了本文的主角,自然界中其实还拥有不少基因组大小超过100 Gb的生物,比如植物中的梅溪蕨属、日本重楼、延龄草属、白果槲寄生,动物中的各种肺鱼和泥螈。虽然这些生物中,有的能跑能跳能划水,有的扎根土壤吸收日月精华;有的颜值极高,有的其貌不扬;有的“身强力壮”,有的弱不禁风......但它们都有一个共同的名字——基因组“巨无霸”!