稳定性材料生成效率提升300%！Meta FAIR发布材料生成模型FlowLLM-

晶体材料是一类具有规则排列的原子、离子或分子结构的材料，在工业和科技领域中扮演着重要角色。

然而晶体材料的生成和设计过程并不简单，通常需要同时考虑离散变量和连续变量的组合。其中离散变量定义了材料的基本框架（如原子类型和初始晶格结构），而连续变量允许在这个基本框架内进行微调和优化，以最终生成具有特定物理、化学性质的晶体材料。

随着 AI 技术的跨学科应用，如何在模型中实现离散与连续变量的有效结合，以获得高质量的晶体材料生成效果，成为晶体材料生成领域的核心难题。

尽管现有的方法，包括自回归大语言模型 (LLM) 和去噪模型（如去噪扩散模型和流匹配模型），已经在这一领域取得了一定的成功，但它们都有各自局限性。

具体而言，LLM 在离散值建模方面表现出色，尤其擅长处理原子类型等离散元素，但它难以精确描述晶格几何和原子间的位置。而去噪模型在处理连续变量上更具优势，能够较好地保持晶体结构中的等变性，但在原子类型等离散元素的建模上面临障碍。
**基于此，Meta 旗下的 FAIR 实验室联合阿姆斯特丹大学发布材料生成模型 FlowLLM。**这是一种结合大语言模型（LLM）和黎曼流匹配（Riemannian flow matching，简称 RFM）的新型生成模型，在生成稳定材料的效率上比以往模型提升了 300% 以上，生成 S.U.N. 材料的效率也提高了约 50%，同时保留了 LLM 能够通过自然语言提示的能力。

* S.U.N. 材料是指在材料科学领域中，通过 AI 技术生成的具有稳定性 (stable)、独特性 (unique)、新颖性 (novel) 的材料。这个概念是微软在讨论 MatterGen 模型时提出的。

相关研究以「FlowLLM: Flow Matching for Material Generation with Large Language Models as Base Distributions」为题，已上传在预印网站 arXiv，并被 NeurIPS 2024 接收。

研究亮点：
* FlowLLM 将 LLM 和 RFM 进行了结合，有效地弥合了离散和连续建模之间的差距，大幅提升了生成稳定、独特且新颖材料的效率

* FlowLLM 在生成新颖且稳定的材料方面显著优于 CD-VAE、DiffCSP、FlowMM、CrystalLLM 等模型，其稳定率比先前最佳模型高约 300%，S.U.N. 率高约 50%

数据集：包含 45,231 种材料，在 MP-20 数据集上进行模型训练

FlowLLM 模型在无机晶体材料数据集 MP-20 上进行训练。M**P-20 包含 45,231 种材料，**是 Materials Project 的一个子集，包含最多 20 个被认为是亚稳态的原子。

首先，研究人员使用 MP-20 数据集独立训练 LLM，并使用 LoRA (Low-Rank Adapters) 方法在 PyTorch 和Transformers 中进行微调。之后，研究人员将微调后的 LLM（权重冻结）作为基础分布，将 MP-20 数据集作为目标分布，进一步训练 RFM 模型。
优势互补：结合 LLM + RFM 两大模型，新型生成模型 FlowLLM 应运而生

**FlowLLM 是一种结合大语言模型（LLM）和黎曼流匹配（Riemannian Flow Matching，简称 RFM）模型的新型生成模型。**它是在此前的工作基础上进一步研究而来，创造性地将 LLM 与 RFM 进行了结合。

其中使用的 LLM 来自 Meta FAIR 及纽约大学于今年 2 月发布的成果「Fine-Tuned Language Models Generate Stable Inorganic Materials as Text」，该研究证明了微调后的 LLM (LLaMA-2 70B) 在预测生成亚稳态材料方面的成功率约为竞争性扩散模型 CDVAE 的 2 倍。

而 FlowMM 则来自 Meta FAIR 及阿姆斯特丹大学于今年 6 月发布的成果「FlowMM: Generating Materials with Riemannian Flow Matching」，作为生成模型， FlowMM 在寻找稳定材料方面的效率是以前开源方法的 3 倍。

如下图所示，研究人员首先使用微调后的 LLM 通过无条件 (unconditional) 查询生成 (prompt) 初始材料表示。然后，RFM 模型对该材料进行迭代转换，更新其原子位置和晶格参数。需要说明的是，在 RFM 中，原子类型保持不变。

FlowLLM 模型架构

研究人员指出，将这两种模型结合可以实现优势互补。**一方面，LLM 为 RFM 提供了一个良好的学习基础分布：**LLM 的输出分布作为 RFM 的学习基础分布 (learned base distribution），替代了常用的均匀基础分布 (uniform base distribution)。由于 LLM 已经在材料数据上进行过训练，因此学习到的基础分布更接近目标分布，从而大大简化了与 RFM 的集成。
* 在流模型 (如 RFM) 中，基础分布是模型从中生成样本的起始分布。学习基础分布能够更精确地捕捉到数据的真实结构和模式。特别是在处理复杂数据时（如材料设计中的晶体结构），学习基础分布能够有效地提高生成样本的质量和模型的性能。
**另一方面，RFM 优化了 LLM 的输出：**LLM 在处理连续值时由于精度有限，会生成一个近似的材料表示值。RFM 通过迭代去噪优化该近似值，从而生成更精确的表示。

一枝独秀：模型稳定材料生成效率提升 300%，S.U.N. 材料生成效率提高 50%

为了测试模型的性能，研究人员将 FlowLLM 模型与 CD-VAE 模型（变分自编码器与扩散模型的混合模型）、DiffCSP模型（扩散模型）、FlowMM 模型（黎曼流匹配模型）以及 CrystalLLM 模型（对材料序列微调的 LLaMA-2 模型）进行了比较，并让每个模型都生成了 1 万种新结构。
**在性能比较中，**研究人员关注的主要指标是稳定率 (Stability rate) 和 S.U.N. 率 (S.U.N. rate)。具体而言，稳定性指的是生成材料中热力学稳定的材料所占比例，它是可合成性的重要指标；S.U.N. 率指的是稳定、独特且新颖的材料所占比例。其结果如下图所示：

模型材料生成性能比较

在稳定性和 S.U.N. 率方面，FlowLLM 模型生成的材料中热力学稳定的材料占比为 17.82%，S.U.N.率达到了 4.92%。研究团队在论文中介绍道，与之前的最优模型相比，FlowLLM 的稳定率提高了 300%，S.U.N. 率提高了 50%。

Ehull 值是衡量材料稳定性和可合成性的重要参数之一，对于一个给定的材料结构， Ehull 值如果接近零，表示该材料极大程度上是稳定的，并且在实际合成过程中更容易存在。而较高的 Ehull 值则可能表明该材料不易稳定，合成难度较大。
**为了进一步测试 FlowLLM 生成的材料稳定性和可合成性，**研究人员将 FlowLLM 生成材料的 Ehull 值与已有模型进行了对比，如下图所示，虚线表示热力学稳定性阈值 (Ehull = 0)，红色代表 FlowLLM 模型，蓝色分别表示 CD-VAE、DiffCSP 以及 FlowMM。

可以看出，相较于其他模型，FlowLLM 可以生成更多 Ehull 值较低的材料。也就是说，用 FlowLLM 生成的材料，其稳定性和可合成性都高于其他模型。

模型 Ehull 值比较

此外，研究人员对模型的 N-ary 值进行了评估。N-ary 值指的是材料中不同元素类型的数量，**N-ary 值越高，材料的复杂性越大，合成的难度也越高。**如下图所示，研究人员比较了不同模型的 N-ary 值分布。结果显示，相比于扩散模型，FlowMM 和 FlowLLM 更符合数据分布。这意味着，FlowMM 和 FlowLLM 模型在拟合材料数据的过程中，能够更好地捕捉材料的内在结构和分布特性。

模型 N-ary 值比较

最后，研究人员还对模型的 RFM 整合步骤 (integration steps) 进行了比较分析。如下图所示，与需要数百或数千个整合步骤的扩散和流匹配模型相比，FlowLLM 能够在短短 50 个步骤内完成收敛。

FlowLLM 与 FlowMM 整合步骤比较
晶体材料生成领域的「百家争鸣」

在材料科学研究领域，Meta 旗下的 FAIR 实验室最近可谓是进入成果高产阶段。就在几周前，刚发布了 OMat24 数据集，该数据集包含超过 1.1 亿以结构和成分多样性为重点的 DFT 计算结果，为模型训练提供了新的高质量「原料」。

其实，在晶体材料生成领域，除了本文提到的 LLM 和去噪模型之外，还有其他几种方法，如基于生成对抗网络 (GAN) 的材料生成、基于变分自编码器 (VAE) 的材料生成、基于图神经网络 (GNN) 的材料生成等等。
**2018 年，巴黎东大学 (University Paris Est) 联合索邦大学 (Sorbonne University) 结合了两个跨域 GAN 模块，提出了 CrystalGAN。**值得一提的是，CrystalGAN 在氢储存材料的发现中进行了实际应用，展示了其在解决真实化学和材料科学挑战中的有效性。

相关研究以「CrystalGAN: Learning to Discover Crystallographic Structures with Generative Adversarial Networks」为题，发表在 ICLR 2019 上。
**2021 年，麻省理工计算机和人工智能实验室提出 CD-VAE，**它通过学习稳定材料的数据分布，捕获了材料稳定性的物理归纳偏差。相关研究以「Crystal Diffusion Variational Autoencoder for Periodic Material Generation」为题，在 ICLR 2022 上发表。
**2023 年，泰国朱拉隆功大学 (Chulalongkorn University) 联合泰国物理卓越中心 (Thailand Center of Excellence in Physics) 在 CD-VAE 的研究基础上，发布 DP-CDVAE。**DP-CDVAE 在保持与CD-VAE 相当的性能的同时，在能量准确性、生成性能和晶格生成质量等方面展现出了显著的优势。

相关研究以「Diffusion probabilistic models enhance variational autoencoder for crystal structure generative modeling」为题，发布在 Nature 上。
**2023 年，Google DeepMind 材料团队发布用于材料探索的图神经网络模型 GNoME，**在短时间内发现了 220 万种新晶体（相当于人类科学家近 800 年的知识积累），其中 38 万种新晶体具备稳定的结构，成为最有可能通过实验合成并投入使用的潜在新材料。

**而在今年，日本东北大学和 MIT 的研究人员同样基于 GNN 的方法，提出了 GNNOpt 模型，**成功识别出 246 种超过 32% 太阳能转换效率的材料，以及 296 种具有高量子权重的量子材料，极大地加速了能源和量子材料的发现。

相关的研究成果远不止于此，在晶体材料生成领域，我们正见证着一场「百家争鸣」的繁荣景象。随着研究的深入，我们有理由相信，这些创新的方法和理论将为解决能源、环境和健康等领域的全球性挑战提供关键的解决方案。