用基因大数据 探寻生命之树的秘密

科技日报 2018-02-06 作者:刘 垠

  “计划通过对地球上的生命进行基因、表型、生态等方面信息和知识的梳理、归纳和分析,发现隐藏在数据背后的生命规律,最终实现‘数字化动植物,数字化地球’的宏伟目标。”华大基因副总裁、首席技术官方晓东所说的“计划”,是华大基因近日发布的“生命周期表计划”。

  此前,华大基因CEO尹烨发布“2020计划”及“生命周期表计划”时表示,“生命周期表计划”的开展,意义并不亚于“元素周期表”。

  基因测序+数据挖掘 探寻生命之树秘密

  对于生命科学来说,在生命周期中起着类似化学元素在化学中基础性作用的是基因。然而,生命个体的基因远比化学元素复杂。

  “像化学家从各种物质中鉴别出元素那样,我们先要从丰富的物种中通过测序检测出尽可能多的基因。这就是生命周期表计划的基础部分——针对地球上所有物种的基因组测序。”方晓东告诉科技日报记者,难点在于收集世界各地不同来源的物种样本,生物样本的采集、授权和转移寄送并非易事。

  有了物种样本后,科研人员借助高通量测序技术和大数据分析挖掘。“首先要获得目标物种的基因组序列图谱。为确保测序的准确性,我们要保证测序数据量平均覆盖全基因组几十甚至上百次,并通过足够聪明的算法和高性能的计算机来推算出目标基因组的序列,进而根据分子进化论计算推断出物种的谱系关系。”方晓东说,这些生物大数据,不仅体量巨大,维度也非常高,要挖掘隐藏在背后的生命运行规律非常困难,谱系关系相对还是比较简单的分析。

  华大基因的研究,希望通过对生命数据的积累,促进生命科学研究从量变到质变奇点的发生,让人类更好地了解生命运行规律,与大自然和谐相处。

  首选哺乳动物 为保护濒危动物打call

  “生命周期表”计划第一期测序对象选择了哺乳纲。用方晓东的话来说,“几乎找不到不选它的理由”,不仅是因为哺乳纲和人类的生存发展息息相关,也是基于多年来研究动植物基因组的经验。

  “我们和国内多家动物园、科研单位合作,拿到了很多哺乳纲样本的材料。”方晓东表示,相对其他物种,哺乳动物的基因组在大小和复杂度上较简单,这便于在现有技术条件和经费下,更好更快地完成生命周期表计划的前期成果,为后续研究提供更多经验和技术储备。

  鼠兔到底是鼠还是兔?大熊猫是熊还是浣熊,为啥它们不爱吃肉?“鼠兔是指兔亚科鼠兔属动物,是跟普通大白兔很接近的动物。鼠兔的种属分类以前就搞清楚了,基因测序进一步证实了上述关系。”方晓东直言,通过对北京奥运会吉祥物熊猫“晶晶”的测序研究,进而为大熊猫归属于熊科动物提供论据,还解释了大熊猫不喜欢吃肉,是因为感受肉类鲜美的T1R1基因失去活性。

  值得关注的是,基因测序研究也为濒危动物保护提供了重要参考。华南虎目前数量上升很快,但整个种群全是6只华南虎的后代,基因多样性堪忧,被世界自然保护联盟列为极度濒危的十大物种之一。

  “在无法改变近亲繁殖现状的情况下,必须加强基因病的研究,控制有害基因扩大化。”方晓东建议,对现存种群个体进行全面测序,保存尽可能多的华南虎基因信息,以便尽快探索使用基因编辑等技术来防治华南虎基因病。

  解码生命奥秘 已测序500多种高等动植物

  目前,全球已测序高等动植物中(含未公布),39%由华大基因和合作伙伴共同完成,已测序的高等动植物有500多种。“生命周期表”在此基础上,拟完成5600多种哺乳动物的测序,其后将逐步完成物种数字化计划。

  “代表性的动物有常见的家畜,如猪、马、猫、狗等,以及动物园里的明星——熊猫、狮虎、大象等。植物则包括了禾本科的水稻小麦等,以及豆科、茄科、蔷薇科和十字花科等植物。”方晓东称,这些物种的测序分析,极大推进了对生命之树的整体认识。比如,厘清了动物中一些物种在进化树上的位置关系,证实了植物中一些物种单倍体和多倍体的演化顺序,后续要扩大范围实现物种全覆盖。

  尹烨透露,“生命周期表计划”第一期测序对象为现存27目157科的哺乳纲,已有超过127科物种被认领。项目组将通过众筹的方式,推动该科物种的基因组分析、解读和知识传播、保护。

  “关于植物的选择,第一期会优先启动药用植物计划,这符合我国中医药发展战略规划,与大众健康密切相关。”方晓东说,中长期计划则是在3-5年内,覆盖所有代表性的开花植物,甚至解密所有的动植物基因组,构建物种的生命周期表。

责任编辑:杨茗

科普中国APP 科普中国微信 科普中国微博
科技日报
是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

猜你喜欢