深圳市大鹏新区大鹏街道下沙片区禾塘仔,这里依山傍海,环境优美,背山面海的几栋白色的建筑并不起眼,但令人难以置信的是,庞大的数据如同螺旋一般,每天从这里源源不断地涌出。这些白色的梯田造型的建筑就是中国首个获批筹建的国家基因库,也是目前全球最大的综合性基因库。
国家基因库项目一期占地面积4.75万平方米,拥有基因测序房、超级计算房以及冷冻资源房,相较于其庞大的建筑规模,它丰富的内容更是令人瞠目结舌:国家基因库目前已存储多种生物资源样本1000万份,可检索生物信息条目数已经超过一个亿,我国更是计划把它打造成为中国的诺亚方舟,建立一个巨大的生物活体库,保护和保存世界约三十万种植物、百万种动物、近千万种微生物活体资源。如此大手笔、高规格的项目究竟什么来头?建立国家基因库的意义何在?下面就让我们一起走进关于国家基因库的专业解读。
图1 位于深圳市大鹏新区的国家基因库一期项目
“干”“湿”“活”三位一体
在我国建立基因库之前,美国、欧洲和日本就已经建立了大型基因数据库,而且这三大库里的生物信息数据几乎涵盖所有已知的脱氧核糖核酸、核糖核酸和蛋白质数据。中国国家基因库与这三大库的不同就在于,它不仅仅是数据库,而是国际上现有的各类生物样本库、数据库、生物多样性库、疾病库等的综合升级版。除了所谓的“干库”,——基因、蛋白、分子、影像等多组学生物信息数据库,和“湿库”——多样性生物样本和物种遗传资源库之外,中国的国家基因库还引入了“活库”,也就是生物活体库,将存储的内容扩展到动物资源、植物资源、微生物资源和海洋资源。同时,该基因库不仅面向科研,还面向推动中国精准医学、精准农业的发展,利用对基因信息的掌控推动产业的发展。
图2 国家基因库中的生物信息数据库
基因的“国库”
2011年,国家发改委等4部委批复同意深圳依托华大基因研究院组建国家基因库,今年9月,国家基因库正式投入运营,这是中国首个获批筹建的国家基因库,同时也是目前为止的唯一一个。
国家基因库有“超测”、“超算”、“超存”的能力:其中,人类资源方面基因库主要保存血液样本、组织样本、细胞系、细胞和尿液等,将为重大疾病的前瞻性研究提供样本资源支撑,为疾病诊断与预测及个性化医疗等奠定基础。在动物资源方面,基因库主要保存珍稀动物及具有重要经济价值的动物组织、细胞等。此外,国家基因库除了存储人类资源、动物资源以外,还存储植物资源、海洋资源和微生物资源。这些都可以为日后的研究工作收集大量的信息。这个建设中的基因“国库”,数据规模到底有多大?打个形象化的比方,目前深圳国家基因库已建成20 Pb数据的可访问能力,以一部电影约500Mb计算,20Pb相当于四千万部电影,一个人一天看一部电影,至少需要10万年才能看完。
存储健康的“生命银行”
2015年1月,美国总统奥巴马在国情咨文演讲中谈到“人类基因组计划”所取得的成果,并宣布新的项目——— 精准医疗计划。更有专家表示,精准医疗计划在时间上是承接人类基因组计划,在本质上是对现行的以药物治疗为主体的医疗进行改革。科学家们认为,绝大多数的疾病都可以通过基因测序得以提前防范和管理。那么,基因测序究竟如何“锁定”疾病?以一个形象化的比喻来解释,一个D N A的正常表达可以理解为一段文字,如果该文字中出现一个错别字,可能就失去其正确意义。测序就是要与正常序列比对,找出哪个细胞哪里出错。通过测序结果,分析基因突变的部分,就能够找到某个疾病对应的基因,方便对症下药。事实上,每个人一生中所有关键阶段的标本都应该永久保存起来:比如出生时的干细胞,20岁时的免疫细胞,30岁时的生殖细胞等等……而国家基因库,就是储存这些样本和数据的地方,它就像是人类的“生命银行”一般。通过有意识地存储自己的健康数据,让人们对自己身体变化状况了如指掌,并且根据这些数据设计自己的饮食、运动和生活节奏,“对抗”衰老。
深圳国家基因库建成后,这个巨型“生命银行”将为中国生命科学研究和生物产业发展提供基础性和支撑性服务平台,储存和管理中国特有的遗传资源、生物信息和基因数据。同时,以生物资源为依托,形成从资源到科研到产业的全贯穿、全覆盖模式,实现大资源、大数据、大科学、大产业的整合与应用。
图3 国家基因库的工作人员将细胞样品放入液氮中保存
在农业时代,一个国家拥有的耕地越多优势越大;在工业时代,拥有的石油、矿产等能源越多优势越大;而在生命时代,拥有更多基因资源同时能对基因资源进行认知和利用,则意味着更大的优势。国家基因库的成立,正在为我国积累全新的优势。目前,国家基因库已与联合国粮食及农业组织、国际农业研究磋商小组、国际生物及环境样本库协会、挪威斯瓦尔巴全球种子库、美国自然历史博物馆等100多个组织和科研机构建立战略合作关系,将在人类健康、生物多样性、生物进化机制等方面开展合作研究。