作者:Ed Yong
编辑:月月
在我们体内,超大容量的信息一次又一次地被复制,这个过程不但可靠,还可以被预测。我们的生命正是依赖于此。 只是复制过程中偶尔有出错的时候,但问题不大,很快就能自动更正。
一切是从DNA开始的。
DNA结构图。图片来源:pixabay
这个赫赫有名的分子是由四个碱基组成的长链,这四个碱基分别是腺嘌呤A,胞嘧啶C,鸟嘌呤G和胸腺嘧啶T。它们通过不同的组合方式,形成指导数千种蛋白合成的信息。但要合成蛋白,DNA首先要复制(或“转录”)出一个叫做RNA的分子。
RNA也由四种碱基构成,其中依然有A,C,G,但是T被尿嘧啶U取代。RNA链上每三个连续的碱基代表一种氨基酸,它是组成蛋白质的基本单位 。细胞内的核糖体能沿着RNA链读取上面的密码子,然后将氨基酸按照正确的序列串接起来。
DNA指导RNA合成,RNA又指导蛋白质合成,这就是 “生命的中心法则” 。 人们通常认为这一信息传递的过程是非常精确的,每一个RNA序列都和它的模板DNA链完全匹配。 给出一个DNA片段,我们就能预测出它对应的RNA链上碱基确切的排列方式,以及翻译出来的蛋白质的氨基酸序列。
图片来源:www.pexels.com
但事实并非总是如此。
在转录过程中还是会有错误出现。 有些错误是由插入了错误的碱基引起的,这类错误通常能由校正蛋白修正。 而其他的错误则是有意的编辑,例如,脱氨基酶常将A转变成G,或将C转变成U(这一类不太常见)。
来自宾夕法尼亚大学医学院的李铭尧(Mingyao Li)和亚莎贝尔•王(Isabel Wang)发现,上述的第二种错误远比我们所了解的有意编辑复杂得多。
李和王从27个不相关的人身上提取了白细胞,观察其DNA和RNA序列。他们发现在整个基因组中, RNA和DNA的序列中不相匹配的地方超过一万个,涉及到了我们身上多于三分之一的基因 。 其中有些是科学家已经知道的,但有半数左右从未被发现。李和王将此称为“RNA-DNA差异”,简称为RDD。
他们为了确定这样的结果并不是因为他们的测序方法出现了错误,特地请了不同的实验室来准备这些样本并进行测序。他们将测序重点放在他们已扫描了好几遍的那部分基因组,以及不同人之间DNA序列相同的那些位点上。他们还使用了从特定人身上提取的细胞,这些人的DNA已经由两大遗传学计划进行了测序。它们分别是国际人类基因组单体型图计划和千人基因组计划。李和王测出的序列与两大计划得出的结果一致。
图片来源:www.pexels.com
RDD并不是随机出现的错误。 每个RDD至少在两个人中出现,有80%在半数样品中出现,而且在婴儿和成人中都有发现,在27个实验对象以外的人群内也存在。 RDD还存在于其他类型的细胞,如神经元、皮肤细胞、胚胎干细胞及癌细胞中。在每个给定的位点,即便是在不同的人体内,RDD都是相同的。也就是说,若DNA中的一个T碱基在转录成RNA后变成了G碱基,那它总是变成G,而非A或C。这其中必遵循一个原则来确定那个位置的碱基被编辑成了什么。
这些受错误支配的分子与那些正确转录的分子共同存在。在任何RDD中,大约20%的RNA序列与它们的模板DNA不同,而其他的都能精确匹配。但这个数字只是个平均值,李和王发现,在有些位点,几乎每个RNA序列都有RDD存在。
这些错误延续到了蛋白质 。李和王发现几种蛋白质上的氨基酸序列是按照已改变过的RNA序列排列的,而非原始的DNA序列。大约三分之一的RDD会导致氨基酸序列的改变,但是只有约百分之一完全影响到了蛋白质的大小。 例如,在RPL28基因上的一个RDD导致翻译出的蛋白质多出了55个氨基酸。
就目前来说,李和王 尚不清楚RDD是如何产生的。碱 基的改变是在合成RNA链时发生的,还是此后在RNA链上被编辑的?在某个位点上由什么来决定哪个碱基被取代?最重要的是,这一现象有什么意义?它们是否会影响我们的行为、我们的发育和我们的身体特征?是否会引发某种疾病?
他们认为,要回答这些问题, 人们在研究基因组的同时,也要把同样的精力放在转录组上。 到目前为止,有关DNA的研究方兴未艾,例如, 人们已花费了数百万美元来研究如何将基因组里那些提高患病风险的变异除去。 但是,DNA仅是冰山一角。同样的DNA片段能够转录并编辑成不同的RNA链,从而产生不同的蛋白。
基因组测序的元老级人物乔治•丘奇(George Church)认为,下一代测序技术的大潮肯定有助于解决这些问题。我们的工具越来越强大,我们所掌握的知识也越来越深入。
排版:昕旸
题图来源:pixabay