今年11月30日, DeepMind公布了一项重量级成果,他们用AI预测白质分子结构,比传统方法效率提高了数百倍。Nature在当天的文章中激动地表示:”It will change Everything(所有事情将为之改变)”。整个生物学界为之震惊。
这是个什么事呢?简单地说,蛋白质的功能是由其结构决定的,知道了结构即知道了蛋白质的功能。然而,已知的结构大概有10^300种,要确定一个蛋白质的结构非常困难。人们设计了核磁共振仪、X射线、冷冻电镜等一系列极其昂贵的设备,耗费了大量时间和精力对蛋白质结构进行解析。例如,一种模蛋白结构的检测花了科学家们10年。经过60年的艰苦奋战,170,000 种蛋白质的结构已经被确定,但还有200,000,000种已知蛋白质等待检测,这是个让人绝望的数字。
1972年诺贝尔化学奖得主Christian Anfinsen提出了一个假设,认为蛋白质结构可以由氨基酸序列来确定。如果这是真的,那可真是天大的福利,因为氨基酸序列是容易确定的,只是不知道这些序列怎么左折右叠的形成了蛋白质。科学家们开始了信心满满的探索,希望用氨基酸序列来预测蛋白质的结构,但结果都不理想,达不到仪器测量的精度。怀疑情绪开始滋长:Anfinsen的假设是对的吗?
2018年,DeepMind开始了他们的探索,在前人工作的基础上开发出了AlphaFold 1,达到了当时最好的精度,但还不够。研究团队再接再励,发现AlphaFold 1有些过训练的问题。通过改进建模方案,2020年,AlphaFold2 横空出世,将预测误差一举降低到1.6埃,相当于一个原子的尺度。
Anfinsen的理论被证明了,困扰人们50年的难题解决了,现在科学家们在电脑前输入一个氨基酸序列就可以得到一个蛋白质的结构了。有了这些结构信息,人们就可以深入了解这些蛋白质的特性,从而为生命科学的研究打开了一扇尘封已久的大门,这扇门里,是无穷无尽的宝藏。
而打开这扇门的最大功尘,是人工智能。
By: 清华大学 蔡云麒,王东