自然界经过了数千万年的生命进化过程,才产生了这么复杂而美丽的蛋白质世界,而神经网络竟然用极短的时间就能模拟这一过程。
撰文 | 曹龙兴(华盛顿大学蛋白质设计所博士后)、卢培龙(西湖大学特聘研究员)
不久前,谷歌公司旗下的DeepMind研发的AlphaFold2人工智能系统在国际蛋白质结构预测竞赛(CASP)上取得惊人的准确度,多数预测模型与实验测得的蛋白质结构模型高度一致,引起了举世瞩目。实际上,蛋白质的结构不仅可以被预测,还可以被设计,二者互为“逆操作”。AlphaFold2在结构预测上的成功,也将惠及蛋白质设计领域。如今,以深度学习技术为代表的人工智能无疑已经高度融入生物科学与技术领域,并且极大地推动了生物领域的发展。今天我们就来讲讲深度学习对蛋白质设计领域的影响。
什么是蛋白质设计?
图1. 氨基酸(amino acid)组成肽链,肽链折叠成蛋白质(生物大分子),不同氨基酸组成的肽链会在空间中折叠成各种形状,从而行使不同的功能。
(来源:https://biocorpllc.com/there-is-a-lot-of-misinformation-about-protein-and-amino-acids/)
蛋白质是由氨基酸组成的长链条高分子化合物(图1)。天然蛋白质基本上由天然氨基酸以一定的组合顺序排列形成,序列长度不定。天然氨基酸共有20种,化学组成和性质各不相同,它们在序列之间的相互作用决定了蛋白质折叠形成的形状、结构,以及折叠后的功能。这就像不同形状的积木可以搭成不同形状、不同功能的建筑。例如我们熟知的血红蛋白可以结合并输送氧气,新冠病毒的中和抗体(蛋白)可以保护人体免于病毒的攻击——这些都是蛋白质的不同功能。人体中有两万多种基因用于编码不同的蛋白质序列,如果考虑不同的剪接形式、修饰和突变,蛋白质的类别总数目有可能超过10万。
通过编排蛋白质的氨基酸序列,使其能够自发折叠,形成所需要的三维结构,并具有一定的功能,这就是蛋白质设计了。蛋白质设计可以分为蛋白质的人工改造和蛋白质从头设计。蛋白质的人工改造是基于现有蛋白质的结构进行一定的突变和进化。蛋白质的从头设计,是完全基于生物物理与生物化学原理的——它不依赖现有的天然蛋白质结构,而是从头搭建、设计具有全新结构和全新功能的蛋白质。如果拿建房子来类比的话,前者类似于对现有房屋的装修改造,细节上有变化,整体框架往往变动不大;而后者就像是先从白纸上画蓝图,设计房子的每个细节,最终搭建出个性化的建筑。较之自然界演化的蛋白质,人工从头设计蛋白质,可以帮助我们探索整个蛋白质序列折叠空间,并在性能方面更好地满足我们特定的需求(图2)。蛋白质设计领域的巨擘David Baker领导的蛋白质设计研究所在这一领域取得了一系列奠基性的成果,并一直持续产生重要的突破与进展。
图2. 利用蛋白质设计开发的可高效中和新冠病毒的人工蛋白质(点击看大图) 丨UW Institute for Protein Design
蛋白质设计是蛋白质结构预测的逆操作,两者就像一枚硬币的正反面:结构预测是从蛋白质序列出发,预测现有氨基酸序列能够形成什么样的三维结构;蛋白质设计刚好相反,先确定我们需要什么样的三维结构,再找到能够自发折叠成所需三维结构的蛋白质序列。蛋白质设计与蛋白质结构预测围绕的都是“蛋白质如何折叠”这一根本问题。无疑,蛋白质结构预测水平的提高会大大加速蛋白质设计的过程。
深度学习如何影响蛋白质设计领域?AlphaFold2在蛋白质结构预测中取得了巨大成功,将直接促进蛋白质设计的发展,并会催生出一系列基于深度学习的蛋白质设计新方法。
首先,深度学习算法可直接用于提高蛋白质设计的精度以及成功率。
当前设计蛋白质的基本思路是:通过编排氨基酸序列,使其可以自发折叠成所要设计的结构,并使整个体系自由能最低,以保证该三维结构可以稳定存在。但是,由于蛋白质序列的排列组合空间极其巨大,且当前能量计算函数精度不足,所以蛋白质设计的成功率并不高。大部分计算机设计的全新氨基酸序列并不能折叠成、或者只能近似折叠成我们想要的结构。而要让设计出的蛋白质具有期望的功能,必须保证三维结构上的高精准度。比如,只能通过特定离子的膜蛋白通道,以及可催化特定反应的酶,要成功设计这些新型蛋白质,活性位点的原子级别的精准度是关键之一。
囿于当前蛋白质设计领域的这些局限,设计者通常需要在实验室中花费大量的时间与精力,通过高通量筛选以及定向进化的方法,从大量的序列中筛选出具有特定结构和高活性的蛋白质。
此时,AlphaFold2提供了一个非常好的结构验证工具:通过高精度的结构预测,筛选出能折叠成目标结构的序列,还可以优化氨基酸序列,使最终的三维结构与所要设计的蛋白质结构更加接近。这将减少大量繁琐的实验室筛选和优化环节,缩短蛋白质设计的时间,降低人力成本,提高设计成功率,并有可能设计出结构和功能更加复杂的蛋白质。新旧两种方法的对比可见图3。
图3. 采用高通量筛选和定向进化方法的蛋白质设计流程(黄色箭头)vs. 通过深度学习算法优化蛋白质设计流程(绿色箭头) 丨作者作图
另一方面,AlphaFold2也会启发人们开发基于深度学习的蛋白质设计新方法 。
在AlphaFold之前的蛋白质结构预测领域,深度神经网络主要是通过分析和提炼同源蛋白序列之间的进化信息,预测出氨基酸之间的距离关系,进而构建出氨基酸序列所对应的三维结构。但在2018年的国际蛋白质结构预测竞赛(CASP13)上,AlphaFold近乎完美地预测了一个没有任何同源序列的、全新设计的蛋白质的三维结构,极大地震撼了蛋白质设计科学家。这表明,深度神经网路并不仅仅从同源蛋白之间的进化信息获取三维结构的特征,而是可以直接理解蛋白质序列和结构之间的复杂关系。
AlphaFold2更进一步,它直接将蛋白质一级序列和三维结构通过一个精妙的深度神经网络关联了起来,这就像是DeepMind找到了一个优美的数学公式,可以将蛋白质的序列和结构用等号连接起来(图4)。
图4:通过深度神经网络构建蛋白质序列与结构之间的关系丨作者作图
AI蛋白质设计的成就与挑战目前,科学家已经使用深度学习在蛋白质设计领域做了很多尝试和努力,并取得了许多令人兴奋的结果。比如,通过学习自然界中蛋白质结构与序列之间的关系,深度神经网络已经可以直接根据蛋白质的三维结构预测最佳的可折叠成该结构的氨基酸序列。这将大大加速整个蛋白质设计的过程,甚至彻底替代传统的、通过优化能量来设计氨基酸序列的过程。
另外一个令人兴奋的结果是美国华盛顿大学David Baker实验室开发的基于深度学习的蛋白质设计方法——神经网络trDesign。通过不断学习自然界中存在的蛋白质一级序列和三维结构,trDesign竟能自己顿悟、设想出全新的、自然界中不存在的蛋白质。经实验验证,这些蛋白质可以自发折叠成非常稳定的三维结构。自然界经过了数千万年的生命进化过程,才产生了这么复杂而美丽的蛋白质世界,而神经网络竟然用极短的时间就能模拟这一过程。如果添加一些限制条件,比如蛋白质-蛋白质结合位点信息或者酶催化活动中心信息,trDesign甚至可以创造出具有这些关键结构特征的蛋白质。研究人员现在正运用实验方法检验这些蛋白质是否具有相应的功能。在未来几年时间内,深度学习在蛋白质设计中的应用将会产生更多令人兴奋的、现在难以预测的结果与发现。
图5. David Baker博士因其在蛋白质设计方面的贡献获得2021年生命科学突破奖。| by Ian Haydon
正如DeepMind所提到的,AlphaFold2目前仍有一定的局限性:蛋白质侧链构象与位置信息不能十分精确;暂时不能对于多链蛋白质复合物、蛋白质-DNA(RNA)、蛋白质-小分子等复合物的结构进行预测;暂时不能预测蛋白质的多种结构状态,动态过程缺失。这些问题也是蛋白质设计领域非常关心的。随着利用深度学习的蛋白质结构预测方法进一步发展,这些方面将会取得进一步突破,促进人们设计更为复杂的,功能更加强大的新型蛋白质。
人工智能,无限可能AlphaFold2精确预测蛋白结构的消息传出后,圈内圈外都在惊叹深度神经网络所取得的伟大成就,调侃结构生物学家失业的话题也热闹了一阵。这让我们想起了七年前,冷冻电镜技术取得革命性进展时,“以蛋白质结晶学为主要技术手段的结构生物学家是不是会失业”的话题。我们现在回头看去,结构生物学家不但没有失业,反而利用最新的技术手段做出了一个又一个重要发现,并破解了大量以前我们不可能看到的生命奥秘。
在科学史上,技术的革新与科学的突破互为因果,相辅相成,我们要做的就是拥抱科技的进步,并以此为基础取得新的突破。以AlphaFold系列为代表的深度学习方法将给蛋白质设计领域带来深远影响,其中充满了机遇与无限的可能性,我们对此无比期待。