[科普中国]-中国人类基因组研究有望“弯道超车”-

属于中国人自己独特的基因“密码”有望被精准破译。近日，由哈尔滨工业大学牵头的国家重点研发计划精准医学研究重点专项之“中国十万人基因组计划暨中国人群多组学参比数据库与分析系统建设”项目正式启动，并进入为期4年的项目实施阶段。“这是我国科学家首次完全自主实施的国家级人类全基因组项目。”项目负责人、哈工大生物信息技术研究院院长王亚东在启动会上介绍，项目组将选取十万中国自然人群作为研究对象，进行基因组、暴露组、表型组等组学研究，揭示中国人群特有基因组变异、变异频率及其影响，最终绘制完成属于国人自己的基因组变异图谱和多组学健康地图。“目前，我国在人类基因组研究方面的总体科学影响力，还不能认为是达到了国际领先水平。”中国科学院上海生命科学研究院生物医学大数据中心首席科学家、中国科学院院士赵国屏评价道，“在组学研究进入大数据时代这个关键时刻，结合精准医疗方向实施‘中国人群多组学参比数据库与分析系统建设’这一大研究计划，辅以正在开展的大规模人群队列研究和正在筹划中的‘人类表型组’计划，是我们实现‘弯道超车’的大好机遇。”为什么要选定“十万人”人类基因组变异多数都是无害的，但也有些变异可导致疾病，如癌症、心脑血管疾病、糖尿病等。中国十万人基因组计划就是要比较全面而精准地鉴定中国人的基因组变异及相关的其他组学（包括表型组）数据，形成比较完善的基因组变异参比数据库。这个基本数据基础，将大大促进我国科学和医学工作者，鉴定与不同人群表型（包括各种复杂疾病）相关的基因组变异，以利于疾病防治，保证全民健康。“我国尚未建立高精度的中国人参考基因组，大量精准医学前沿研究缺少参考数据，已经成为我国精准医学发展的重大瓶颈问题。”王亚东坦言，启动中国十万人基因组计划就是瞄准了这一瓶颈问题。王亚东表示，该计划将构建世界级精度中国人参考基因组和多组学参比数据库，这是我国精准医学发展的重要基础，将满足精准医学研究的关键共性需求，有助于挖掘健康和疾病的遗传与环境风险因素的相关性、建立精准的疾病防治方案。那么，为什么要选定十万人作为参比人群？实际上，“研究环境和基因相互作用对健康的影响，研究肿瘤等重大疾病易感性的个体遗传差异，罕见变异（频率低于千分之五）可能是重要的研究对象。”王亚东在接受媒体采访时指出，我国人口接近14亿，遗传结构复杂，根据统计遗传学理论，要达到本项目精确地鉴定罕见变异的目标，即变异检测的精度达到万分之一，十万人只是一个最小限度的基因组测序数量。那这十万人又是如何选取出来的呢？一方面是依托精准医学研究专项等国家科研项目，从已有的研究队列中选取样本；另一方面，项目还将建立一个开放的平台，志愿者也可以参与其中。为了保证样本的全面性和多样性，项目基本涵盖了我国东北、西北、华北、华中、华东、华南、西南7大地区的汉族样本。同时，还选择了包括藏族、蒙古族、壮族、回族、满族等9个人口数量在500万以上的少数民族群体，在接下来的项目推动过程中，将逐步扩展到56个民族。实施过程将面临重大挑战人类约有2.5万个基因，要想把十万人每个人体内的基因密码全部解开，面临的首要挑战就是十万人基因组变异检测的计算复杂性和质量控制。赵国屏对《中国科学报》记者解释道，全基因组是指全部30亿碱基长的人类基因组序列。只有通过包括全基因组测序又高于现在常用的二代测序的方法，才能够发现基因组上的单核苷酸变异（SNV）、插入/缺失变异（INDEL）和结构变异（SV）等所有基因组变异。“在过去的基因组计划，虽然GWAS（全基因组关联分析）研究曾经用到万人以上的样本，但全基因组测序的计划从未有如此大的样本。”赵国屏表示，该项目产生的数据规模巨大，数据总量可达到10PB，从基因组测序数据中检测基因组变异的计算量巨大，可达到2000万CPU小时，需要建立高效的计算分析平台完成所有数据分析工作。除此之外，目前，国际上的基因组变异检测方法准确率较低，其中SNP准确率低于99%，INDEL准确率低于95%，SV准确率低于90%。如何确保此次项目数据分析的准确度也是一大难点。“因此，我们需要建立高效的计算分析平台完成所有数据分析工作，研发更高精度的基因组分析算法、软件和工作流，以及基因组变异检测的质量控制体系，确保基因组变异检测的准确性。”王亚东说。面对庞大数据算法方面的挑战，上海交通大学Bio-X研究院院长、中国科学院院士贺林则建议，除了算法改进和计算机能力的更新，未来侧重点还应考虑放在对海量“垃圾”序列的划界和处理上。除此之外，贺林还对《中国科学报》记者指出，中国十万人基因组计划完成之后，立即面对的是如何解读所得到的大量序列数据与健康和疾病之间的关系。建立遗传咨询行业被认为是唯一出路，然而在我国的职业大典上，至今还找不到遗传咨询师这一职业。集中力量实现“弯道超车”继成功绘制人类基因组测序“中国卷”和水稻基因组图谱后，进入本世纪以来，我国科学家继续向着生命科学的深处进军，继续参与了人类基因组新计划HapMap计划、肿瘤基因组计划和千人基因组计划，并且在成功完成HapMap计划的基础上，针对若干重大疾病，大规模地开展GWAS研究工作，获得了可喜的成就。据赵国屏介绍，在过去二十年里，利用人类基因组研究的技术与知识，中国微生物（包括病毒）基因组研究进展迅速，在传染病防控的基础研究与临床应用方面迅速走向国际前沿。另外，中国在干细胞、肿瘤防治、胎儿遗传疾病早期检测、慢性病代谢病防治方面的进步也有目共睹，其中干细胞的研究已经达到了国际前沿水平。但是，我国在基因组，特别是人类基因组研究方面的总体科学影响力，还达不到国际领先的水平。赵国屏认为，对基因组的研究，本质上是对基因型的认识。我们目前所使用的关于人类基因组的比较系统和可靠的基础数据，大部分是由以西方人群为主的国际研究项目所提供，这对于服务中国人的健康与医药事业是不适应的。另一方面，以往国际项目对于相应表型信息的采集，基本上是项目导向，比较分散难以整合，再加上其中亚洲人样本有限，也更为开展基因型与表型的相关分析带来了基础性的问题。“造成这个问题的根本原因就是我们在过去二十年中，对于我们自己产生的基因组数据的整合、交互和共享没有组织并实施持之以恒的大规模的工程性管理、支撑、服务、研究和开发工作。”赵国屏再次强调说。而此次启动的中国十万人基因组计划正好给了我们“弯道超车”的大好机遇。中国人“多组学”相关项目的整合，为中国人类基因组研究走向工程化，为中国人类基因组数据能够真正在整合与共享基础上实现高效的挖掘与研发创造了条件。相信这个项目的扎实推进，一定能为我国健康事业和生命科学研究事业作出根本性的贡献。据悉，该项目设立五个课题，分别由哈尔滨工业大学、复旦大学、中国科学院北京基因组研究所、华中科技大学、中国科学院上海生命科学研究院等五个科研单位领衔，将有20个大学、科研院所和企业的166位专家学者参与到项目中。“现在我国测序设计和分析能力是有的，但力量却是分散的，这次项目是一个机会，希望能够把力量集中起来。现在，在筹备的过程中，也看到了这方面希望。”赵国屏说。（编辑：p_vhehwang）