全基因组测序是对未知基因组序列的物种进行个体的基因组测序。 1986年, Renato Dulbecco是最早提出人类基因组测序的科学家之一。他认为如果能够知道所有人类基因的序列,对癌症的研究将会很有帮助。美国能源部(DOE)与美国国家卫生研究院(NIH),分别在1986年与1987年加入人类基因组计划。除了美国之外,日本在1981年就已经开始研究相关问题,但是并没有美国那样积极。到了1988年,詹姆士·华生(DNA双螺旋结构发现者之一)成为NIH的基因组部门主管。1990年开始国际合作。1996年,多个国家召开百慕达会议,以2005年完成测序为目标,分配了各国负责的工作,并且宣布研究结果将会及时公布,并完全免费。1
内容1998年,克莱格·凡特的塞雷拉基因组公司成立,而且宣布将在2001年完成测序工作。随后国际团队也将完成工作的期限提前。2000年6月26日,塞雷拉公司的代表凡特,以及国际合作团队的代表弗朗西斯·柯林斯(Francis Collins),在美国总统柯林顿的陪同下发表演说,宣布人类基因组的概要已经完成。2001年2月,国际团队与塞雷拉公司,分别将研究成果发表於《自然》与《科学》两份期刊。在基因组计划的研究过程中,塞雷拉基因组使用的是鸟枪法测序(shotgun sequencing),这种方法较为迅速 ,但是仍需以传统测序来分析细节。全基因组测序技术主要包括第二代测序技术(NGS)和第三代测序技术。第二代测序技术已经能够快速、低成本的进行全基因组测序,其设备供应商主要是Solexa (现被Illumina公司合并),454(罗氏公司)和SOLiD(AB公司)。第三代测序技术于2011年4月正式推广,其单分子实时(SMRT)测序技术完全不同与第二代测序,它的序列读长高达3000 bp(Pacific Biosciences 公司研发)。1
2015年10月24日,中国深圳--在第十届国际基因组学大会(ICG-10)上,华大基因发布了其自主研发的新型桌面化测序系统 BGISEQ-500。该仪器是华大基因继今年6月推出“超级测序仪”―Revolocity™之后的第二款测序系统。BGISEQ-500是一套小巧的集成式桌面测序解决方案,具有精准、简易、快速、灵活、经济的特点。该系统基于原有CG技术基础优化而成,个人基因组检测精度达到了99.99%,可以达到临床需求。
该测序仪的样品制备和测序操作都可通过配件自动完成,配备了无线射频识别(RFID)的样本追踪系统,可监控并记录实验全流程,结合其简洁的触控式操作界面,可真正实现一键测序。对于临床使用,可以通过其内置的应用软件直接生成分析报告,从DNA样本到数据分析结果的全过程最快可在24小时内完成。
技术路线提取基因组DNA,然后随机打断,电泳回收所需长度的DNA片段(0.2~5Kb),加上接头, 进行DNA簇(Cluster)制备,最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行测序。然后对测得的序列组装成Contig,通过Paired-End的距离可进一步组装成Scaffold,进而可组装成染色体等。组装效果与测序深度与覆盖度、测序质量等有关。常用的组装有:SOAPdenovo、Trimity、Abyss等。
测序指标深度测序深度(Sequencing depth)是指测序得到的碱基总量(bp)与基因组大小的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在50X~100X以上时,基因组覆盖度和测序错误率控制均得以保证,后续序列组装成染色体才能变得更容易与精准。
覆盖度测序覆盖度:基因组被测序得到的碱基覆盖的比例;测序覆盖度是反映测序随机性的指标之一;测序序深度与覆盖度之间的关系可以过Lander-Waterman Model(1988)来确定。当深度达到5X时,则可覆盖基因组的约99.4%以上。2
测序应用通过生物信息手段,分析不同个体基因组间的结构差异,同时完成SNP及基因组结构注释。 DNA突变可诱发癌症。吸烟过程中所释放的>60种致癌化学物质可与DNA结合并对DNA链上的鸟嘌呤和腺嘌呤进行化学修饰从而产生大的加合物,该加合物改变了DNA双螺旋的结构,如果不被核苷酸剪切修复或其他的途径进行纠正,那么DNA在复制时就会按照non-Watson-Crick方式进行复制并阻止RNA聚合酶进行转录,从而引发癌症。英国剑桥大学和Wellcome Trust Sanger研究所一起,于2010年初,在Nature杂志上发表文章,他们用第二代测序技术(ABI SOLiD)对一个小细胞肺癌(Small-cell lung cancer, SCLC)细胞系NCI-H209基因组进行测序,以探讨烟气中的致癌物质引发了该细胞系基因组中哪些特定碱基及其周围序列的突变及细胞损伤修复路径。
研究结果①NCI-H209细胞系基因组中,共检测到22,910个碱基替换、65个插入缺失(Indels)、58个结构变异;在基因组的编码区,除了发现RB1 和TP53基因发生点突变和MLL2基因由于发生了G>T的颠换,从而产生了pre-stop codon外,有94个点突变直接改变了氨基酸序列,有36个属同义突变。
②特定的碱基及其周围序列易被烟气中的多环芳烃和丙烯醛诱变。在NCI-H209细胞系基因组中,G>T/C>A是最为普遍的颠换现象,发生频率为34%;其次是G>A/C>T(21%)和A>G/T>C(19%);CpG岛外的CpG二核苷酸多发生G>T颠换,而CpG岛内的CpG二核苷酸多发生G>C颠换,说明烟气中的致癌物偏好引起甲基化的CpG二核苷酸发生颠换。3
③检测到转录偶联修复(Transcription-coupled repair)和表达相关的修复(Expression-linked repair)在起作用。转录偶联修复作用机制:鸟嘌呤和腺嘌呤上大的加合物是吸烟过程中所释放的致癌化学物质引起DNA损伤的主要形式,这些大的加合物阻止了转录链上RNA聚合酶的转录过程,而转录受阻的RNA聚合酶招募核苷酸剪切修复相关因子对受损的核苷酸进行修复以避免突变发生。在TP53基因突变的肺癌细胞中,G>T颠换常出现在非转录链,表明在转录链上相同的损伤已被识别和修复。在本研究中,转录链上G和A碱基替换频率比非转录链上少,由此看来嘌呤是烟气致癌物质主要诱变靶标。另外,在NCI-H209细胞系中,转录链和非转录链上发生不同类型的突变(G>T、A>G、A>T)两条链基因表达水平也有差异,这就意味着转录偶联修复机制识别、修复不同加合物损伤的能力不同。
表达相关的修复(Expression-linked repair)作用机制:这是一种新的、更为普遍的修复机制,即,高表达的基因中,转录链及非转录链的突变频率都较低。在NCI-H209细胞系中,转录链和非转录链上发生G>A的突变,两条链上基因表达水平都很高,这就说明表达相关的修复作用比转录偶联修复作用更为重要。
④在SCLC细胞系中,CHD7基因发生了重排。在NCI-H209细胞系中,CHD7基因3~8外显子发生连续重复,而另外2个LU-135、NCI-H2171细胞系则携带PVT1-CHD7融合基因,说明在肺癌中CHD7基因发生了周期性重排。
以上结果表明,第二代测序技术已成为研究与癌症相关的基因突变过程、细胞损伤修复路径、基因调控网络的强有力工具。
本词条内容贡献者为:
刘磊 - 研究员 - 天津华大基因