王琳琳
近日,谷歌深脑团队(DeepMind)和同构公司(Isomorphic)在国际科技期刊《自然》发表一项重大研究成果,揭示在蛋白质结构预测领域取得的突破性进展。科学家通过联合自注意力机制和扩散模块,推出一种新模型,可成功预测几乎所有生命分子的结构及其相互作用。这一突破让我们对生命中复杂现象的理解进入了一个全新的阶段。
图库版权图片,转载使用可能引发版权纠纷
AI大模型让药物研发更精准
相较于此前的蛋白质结构和相互作用预测工具,这项研究成果将成功率提升50%以上。它不仅可取代现有的许多结构解析工作,还能广泛应用于生物医药行业,大大加速了新型药物的开发进程,并显著降低开发成本。举个例子来说,在抗肿瘤免疫调节过程中,通过对相关蛋白结构预测,以及相应蛋白与新型小分子药物结合后的结构变化预测,可有效评估小分子药物的疗效潜力。这一过程仅需在服务器上输入蛋白质的基因序列和小分子结构式,即可快速完成预测。相比之下,传统方法则需进行大量耗时且昂贵的生物化学实验才能获得类似结果。
然而,生物大分子的结构多变与复杂相互作用,只是生命复杂性的冰山一角。为了真正理解生命如何从一个个单独分子形成细胞,进而形成个体并表现出生长发育、自我繁殖,以及适应环境等多种复杂行为,我们不仅需要掌握生物分子的结构和相互作用,还必须了解这些生命分子如何在生命体内的集体运动机制。
为了精确描述生命体中无数分子的集体运动机制,科学家们建立了数学模型来描述系统状态随时间的变化。这些模型被称为动力学模型。事实上,在现实世界中,细胞中的分子会受到溶液、温度和其他分子的相互作用等因素干扰,导致我们无法精确预测这些分子的具体状态。为了应对这种不确定性,科学家们开始采用概率的方法,描述这种概率分布变化的模型,被称为随机动力学模型。
通过求解随机动力学方程,我们可以了解关于分子运动的所有信息。但是,概率性导致数据信息量变得巨大,需要计算的空间点的个数也随着分子数量的增加而呈指数级增加。例如,对100种化合物分子而言,就需要计算超过10^300个空间位置,这甚至远远超过了整个宇宙中的原子个数,得到所有空间位置概率所需的计算时间也与宇宙的年龄相当。因此,为了处理如此庞大的计算量,科学家们一直在探索更加高效的计算方法和模型,希望能更精准、更快速地揭示生命分子的动态行为。
AI大模型实现随机动力系统高效解算
为了破解这一计算难题,中国科学院长春应用化学研究所博士刘传波和国科温州研究院研究员汪劲在国际期刊《美国科学院院刊》上发表了一篇突破性的文章。他们提出了一种基于AI大模型的随机动力系统求解方法。通过使用基于强化学习的知识蒸馏技术,他们首次证明,可以在极高精度下将高维随机系统的全部动力学信息,编码到一个统一的神经网络中。这可以形象地比喻为将一个如同宇宙般庞大的空间压缩进一个神经网络大模型。此求解方法将原本指数级的计算复杂度压缩到近似线性,使得对包含超过100种化合物的随机动力系统的精确求解成为可能,成功攻克了随机动力系统的计算难题。同时,他们还发现经过训练的神经网络获得了与大语言模型类似的泛化能力,可根据已学习过的方程精确预测其他动力学方程的概率。这可以类比于人类举一反三的能力,例如,学习了1+1=2之后,就知道1+2=3。而且神经网络比人类更加精确,展现出了超越人类的对随机动力系统的理解能力。通过应用这一新方法,未来科学家将能以前所未有的精度对整个细胞乃至整个组织进行定量分析,从而探索生命行为如何从一堆无生命的分子中涌现出来。
古希腊德尔斐神庙墙上镌刻着“认识你自己”的箴言。几千年来,这句古老的智慧名言激发了无数哲学家的深思与探讨。今天,随着人工智能大模型技术的飞速发展,这句话正获得全新的意义。借助AI大模型对生命系统中分子结构和相互作用的预测,以及对分子在细胞中运动的精确计算,人类终于可以逐步揭开生命的神秘面纱,逐渐认识真实的自己。
(作者系吉林省科普创作协会会员、吉林省科学技术工作者服务中心助理研究员)