晶体材料是一类具有规则排列的原子、离子或分子结构的材料,在工业和科技领域中扮演着重要角色。
然而晶体材料的生成和设计过程并不简单,通常需要同时考虑离散变量和连续变量的组合。其中离散变量定义了材料的基本框架(如原子类型和初始晶格结构),而连续变量允许在这个基本框架内进行微调和优化,以最终生成具有特定物理、化学性质的晶体材料。
随着 AI 技术的跨学科应用,如何在模型中实现离散与连续变量的有效结合,以获得高质量的晶体材料生成效果,成为晶体材料生成领域的核心难题。
尽管现有的方法,包括自回归大语言模型 (LLM) 和去噪模型(如去噪扩散模型和流匹配模型),已经在这一领域取得了一定的成功,但它们都有各自局限性。
具体而言,LLM 在离散值建模方面表现出色,尤其擅长处理原子类型等离散元素,但它难以精确描述晶格几何和原子间的位置。而去噪模型在处理连续变量上更具优势,能够较好地保持晶体结构中的等变性,但在原子类型等离散元素的建模上面临障碍。
**基于此,Meta 旗下的 FAIR 实验室联合阿姆斯特丹大学发布材料生成模型 FlowLLM。**这是一种结合大语言模型(LLM)和黎曼流匹配(Riemannian flow matching,简称 RFM)的新型生成模型,在生成稳定材料的效率上比以往模型提升了 300% 以上,生成 S.U.N. 材料的效率也提高了约 50%,同时保留了 LLM 能够通过自然语言提示的能力。
* S.U.N. 材料是指在材料科学领域中,通过 AI 技术生成的具有稳定性 (stable)、独特性 (unique)、新颖性 (novel) 的材料。这个概念是微软在讨论 MatterGen 模型时提出的。
相关研究以「FlowLLM: Flow Matching for Material Generation with Large Language Models as Base Distributions」为题,已上传在预印网站 arXiv,并被 NeurIPS 2024 接收。
研究亮点:
* FlowLLM 将 LLM 和 RFM 进行了结合,有效地弥合了离散和连续建模之间的差距,大幅提升了生成稳定、独特且新颖材料的效率
* FlowLLM 在生成新颖且稳定的材料方面显著优于 CD-VAE、DiffCSP、FlowMM、CrystalLLM 等模型,其稳定率比先前最佳模型高约 300%,S.U.N. 率高约 50%
数据集:包含 45,231 种材料,在 MP-20 数据集上进行模型训练
FlowLLM 模型在无机晶体材料数据集 MP-20 上进行训练。M**P-20 包含 45,231 种材料,**是 Materials Project 的一个子集,包含最多 20 个被认为是亚稳态的原子。
首先,研究人员使用 MP-20 数据集独立训练 LLM,并使用 LoRA (Low-Rank Adapters) 方法在 PyTorch 和Transformers 中进行微调。之后,研究人员将微调后的 LLM(权重冻结)作为基础分布,将 MP-20 数据集作为目标分布,进一步训练 RFM 模型。
优势互补:结合 LLM + RFM 两大模型,新型生成模型 FlowLLM 应运而生
**FlowLLM 是一种结合大语言模型(LLM)和黎曼流匹配(Riemannian Flow Matching,简称 RFM)模型的新型生成模型。**它是在此前的工作基础上进一步研究而来,创造性地将 LLM 与 RFM 进行了结合。
其中使用的 LLM 来自 Meta FAIR 及纽约大学于今年 2 月发布的成果「Fine-Tuned Language Models Generate Stable Inorganic Materials as Text」,该研究证明了微调后的 LLM (LLaMA-2 70B) 在预测生成亚稳态材料方面的成功率约为竞争性扩散模型 CDVAE 的 2 倍。
而 FlowMM 则来自 Meta FAIR 及阿姆斯特丹大学于今年 6 月发布的成果「FlowMM: Generating Materials with Riemannian Flow Matching」,作为生成模型, FlowMM 在寻找稳定材料方面的效率是以前开源方法的 3 倍。
如下图所示,研究人员首先使用微调后的 LLM 通过无条件 (unconditional) 查询生成 (prompt) 初始材料表示。然后,RFM 模型对该材料进行迭代转换,更新其原子位置和晶格参数。需要说明的是,在 RFM 中,原子类型保持不变。
FlowLLM 模型架构
研究人员指出,将这两种模型结合可以实现优势互补。**一方面,LLM 为 RFM 提供了一个良好的学习基础分布:**LLM 的输出分布作为 RFM 的学习基础分布 (learned base distribution),替代了常用的均匀基础分布 (uniform base distribution)。由于 LLM 已经在材料数据上进行过训练,因此学习到的基础分布更接近目标分布,从而大大简化了与 RFM 的集成。
* 在流模型 (如 RFM) 中,基础分布是模型从中生成样本的起始分布。学习基础分布能够更精确地捕捉到数据的真实结构和模式。特别是在处理复杂数据时(如材料设计中的晶体结构),学习基础分布能够有效地提高生成样本的质量和模型的性能。
**另一方面,RFM 优化了 LLM 的输出:**LLM 在处理连续值时由于精度有限,会生成一个近似的材料表示值。RFM 通过迭代去噪优化该近似值,从而生成更精确的表示。
一枝独秀:模型稳定材料生成效率提升 300%,S.U.N. 材料生成效率提高 50%
为了测试模型的性能,研究人员将 FlowLLM 模型与 CD-VAE 模型(变分自编码器与扩散模型的混合模型)、DiffCSP模型(扩散模型)、FlowMM 模型(黎曼流匹配模型)以及 CrystalLLM 模型(对材料序列微调的 LLaMA-2 模型)进行了比较,并让每个模型都生成了 1 万种新结构。
**在性能比较中,**研究人员关注的主要指标是稳定率 (Stability rate) 和 S.U.N. 率 (S.U.N. rate)。具体而言,稳定性指的是生成材料中热力学稳定的材料所占比例,它是可合成性的重要指标;S.U.N. 率指的是稳定、独特且新颖的材料所占比例。其结果如下图所示:
模型材料生成性能比较
在稳定性和 S.U.N. 率方面,FlowLLM 模型生成的材料中热力学稳定的材料占比为 17.82%,S.U.N.率达到了 4.92%。研究团队在论文中介绍道,与之前的最优模型相比,FlowLLM 的稳定率提高了 300%,S.U.N. 率提高了 50%。
Ehull 值是衡量材料稳定性和可合成性的重要参数之一,对于一个给定的材料结构, Ehull 值如果接近零,表示该材料极大程度上是稳定的,并且在实际合成过程中更容易存在。而较高的 Ehull 值则可能表明该材料不易稳定,合成难度较大。
**为了进一步测试 FlowLLM 生成的材料稳定性和可合成性,**研究人员将 FlowLLM 生成材料的 Ehull 值与已有模型进行了对比,如下图所示,虚线表示热力学稳定性阈值 (Ehull = 0),红色代表 FlowLLM 模型,蓝色分别表示 CD-VAE、DiffCSP 以及 FlowMM。
可以看出,相较于其他模型,FlowLLM 可以生成更多 Ehull 值较低的材料。也就是说,用 FlowLLM 生成的材料,其稳定性和可合成性都高于其他模型。
模型 Ehull 值比较
此外,研究人员对模型的 N-ary 值进行了评估。N-ary 值指的是材料中不同元素类型的数量,**N-ary 值越高,材料的复杂性越大,合成的难度也越高。**如下图所示,研究人员比较了不同模型的 N-ary 值分布。结果显示,相比于扩散模型,FlowMM 和 FlowLLM 更符合数据分布。这意味着,FlowMM 和 FlowLLM 模型在拟合材料数据的过程中,能够更好地捕捉材料的内在结构和分布特性。
模型 N-ary 值比较
最后,研究人员还对模型的 RFM 整合步骤 (integration steps) 进行了比较分析。如下图所示,与需要数百或数千个整合步骤的扩散和流匹配模型相比,FlowLLM 能够在短短 50 个步骤内完成收敛。
FlowLLM 与 FlowMM 整合步骤比较
晶体材料生成领域的「百家争鸣」
在材料科学研究领域,Meta 旗下的 FAIR 实验室最近可谓是进入成果高产阶段。就在几周前,刚发布了 OMat24 数据集,该数据集包含超过 1.1 亿以结构和成分多样性为重点的 DFT 计算结果,为模型训练提供了新的高质量「原料」。
其实,在晶体材料生成领域,除了本文提到的 LLM 和去噪模型之外,还有其他几种方法,如基于生成对抗网络 (GAN) 的材料生成、基于变分自编码器 (VAE) 的材料生成、基于图神经网络 (GNN) 的材料生成等等。
**2018 年,巴黎东大学 (University Paris Est) 联合索邦大学 (Sorbonne University) 结合了两个跨域 GAN 模块,提出了 CrystalGAN。**值得一提的是,CrystalGAN 在氢储存材料的发现中进行了实际应用,展示了其在解决真实化学和材料科学挑战中的有效性。
相关研究以「CrystalGAN: Learning to Discover Crystallographic Structures with Generative Adversarial Networks」为题,发表在 ICLR 2019 上。
**2021 年,麻省理工计算机和人工智能实验室提出 CD-VAE,**它通过学习稳定材料的数据分布,捕获了材料稳定性的物理归纳偏差。相关研究以「Crystal Diffusion Variational Autoencoder for Periodic Material Generation」为题,在 ICLR 2022 上发表。
**2023 年,泰国朱拉隆功大学 (Chulalongkorn University) 联合泰国物理卓越中心 (Thailand Center of Excellence in Physics) 在 CD-VAE 的研究基础上,发布 DP-CDVAE。**DP-CDVAE 在保持与CD-VAE 相当的性能的同时,在能量准确性、生成性能和晶格生成质量等方面展现出了显著的优势。
相关研究以「Diffusion probabilistic models enhance variational autoencoder for crystal structure generative modeling」为题,发布在 Nature 上。
**2023 年,Google DeepMind 材料团队发布用于材料探索的图神经网络模型 GNoME,**在短时间内发现了 220 万种新晶体(相当于人类科学家近 800 年的知识积累),其中 38 万种新晶体具备稳定的结构,成为最有可能通过实验合成并投入使用的潜在新材料。
**而在今年,日本东北大学和 MIT 的研究人员同样基于 GNN 的方法,提出了 GNNOpt 模型,**成功识别出 246 种超过 32% 太阳能转换效率的材料,以及 296 种具有高量子权重的量子材料,极大地加速了能源和量子材料的发现。
相关的研究成果远不止于此,在晶体材料生成领域,我们正见证着一场「百家争鸣」的繁荣景象。随着研究的深入,我们有理由相信,这些创新的方法和理论将为解决能源、环境和健康等领域的全球性挑战提供关键的解决方案。