几乎覆盖元素周期表！Meta 发布开源 OMat24 数据集，含 1.1 亿 DFT 计算结果

超神经HyperAI

2024-11-05 11:00发布于福建

作者：李姝

编辑：李宝珠

Meta 发布开源数据集 OMat24 以及预训练模型 EquiformerV2。其中 OMat24 数据集包含超过 1.1 亿以结构和成分多样性为重点的 DFT 计算结果。

随着全球对可再生能源需求的日益增长，储能技术作为一种能够将能量储存起来并在需要时释放的解决方案，正受到越来越多的关注。但许多再生能源存储技术初期投资成本高，运维困难，目前仍处于研发或示范阶段。

针对于此，彼时还未更名的 Facebook 人工智能研究实验室 (FAIR) 联合卡耐基梅隆大学，于 2020 年发起了 Open Catalyst Project 项目，其目标是利用 AI 探寻用于可再生能源存储的新催化剂。伴随该项目的发布，研究团队推出了催化剂模拟数据集 OC20。

2022 年，研究团队在 OC20 数据集的基础上，扩展推出了 Open Catalyst 2022 (OC22) Dataset，使得模型训练更加精准。

近日，Meta 在材料科学领域再次迎来新突破，发布了 Open Materials 2024 (OMat24) 大规模开源数据集和一组配套的预训练模型。OMat24 数据集包含超过 1.1 亿次以结构和成分多样性为重点的密度泛函理论 (DFT) 计算结果。预训练模型使用 EquformerV2 (eqV2) 模型进行训练，其中 eqV2-M 模型在 Matbench Discovery 排行榜上达到了最先进的水平，能够预测基态稳定性和形成能，为预测材料稳定性设定了新的基准。

研究亮点：
* OMat24 数据集在 MPtrj、Materials Project、Alexandria 等开源数据集的基础上构建，数据集包含的元素几乎覆盖整个元素周期表

* 预训练模型有 eqV2-S、eqV2-M、eqV2-L 三种模型规模，其中 eqV2-M 模型在 Matbench Discovery 排行榜上的 F1 得分为 0.916，平均绝对误差仅为 20 meV/atom

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：

https://github.com/hyperai/awesome-ai4s

OMat24 数据集包含超 1.1 亿 DFT 计算结果，涵盖不同的原子构型

OMat24 数据集是目前用于材料训练 DFT 替代模型的最大的开源数据集之一。该数据集由一系列无机体块材料的 DFT 单点计算 (single-point calculations)、结构弛豫 (structural relaxations) 和分子动力学轨迹 (molecular dynamic trajectories) 组成。研究人员总共计算了约 1.18 亿个标注有总能量、力 (forces norm) 和晶胞应力 (stress) 的结构，使用了超过 4 亿核时的计算资源。

这些结构是通过玻尔兹曼采样生成扰动结构 (sampling of rattled structures)、从头算分子动力学 (ab initio molecular dynamics, AIMD)、以及扰动结构的弛豫 (relaxations of rattled structures) 3 种技术生成的。

OMat24 数据集生成、应用领域及采样策略概览

OMat24 数据集具有广泛的能量、力和应力分布。下图展示了 OMat24 数据集、MPtrj 数据集以及 Alexandria 数据集的总能量 (total energy，单位用 eV/atom 表示)、力 (forces，单位用 eV/A 表示) 和应力 (stress，单位用 GPa 表示) 标签的分布情况。

* MPtrj 数据集 (Materials Project Trajectory Dataset) 包含超过 150 万个无机结构的 DFT 计算结果。因其大规模和多样性，在材料科学和计算材料学领域具有重要的应用价值。

* Alexandria 数据集是一个量子化学数据库，为力场开发、密度泛函的开发和评估提供了大量的分子属性数据。

橙色虚线代表 MPtrj 数据集、蓝色虚线代表 Alexandria 数据集、绿色实线代表 OMat24 数据集

可以看到，OMat24 数据集的能量分布略高于用作输入结构的 Alexandria 数据集，并且显著高于 MPtrj 数据集；OMat24 数据集的力以及晶胞应力分布远高于 MPtrj 和 Alexandria 数据集。

值得一提的是，OMat24 数据集所包含的元素也几乎覆盖了元素周期表。如下图所示：

OMat24 数据集中的元素分布

尽管 OMat24 数据集与其他数据集相比具有优越性，但研究人员同时也说明了该数据集还存在局限性。该数据集是基于 PBE 和 PBE+U 级别的 DFT 计算得到的，它只包含周期性体相结构，未考虑点缺陷、表面、非化学计量比以及低维结构的重要影响，因此存在固有的近似误差，但这些误差在其他泛函中得到了一定程度的解决。

如下图所示，研究人员将 WBM 数据集中的计算结果与采用 OMat24 DFT 设置的单点计算结果进行了比较，结果发现二者之间平均绝对误差为 52.25 meV/atom。
* WBM 数据集是一个大规模的计算材料数据库，包含了使用 DFT 计算得到的大量材料的电子结构和热力学性质数据，如形成能、熵变、比热容等。

WBM 数据集计算结果与 OMat24 DFT 设置的单点计算结果比较示意图

以 EquformerV2 为模型架构，基于三大数据集进行模型训练

研究人员利用 OMat24 数据集以及 MPtrj 数据集和 Alexandria 数据集来训练模型。由于 Alexandria 数据集和用于测试的 WBM 数据集中存在类似的结构，研究人员对 Alexandria 数据集进行了子采样以进行训练，确保训练数据集和测试数据集之间没有遗漏。

首先，研究人员删除了所有与 WBM 初始结构和弛豫结构中相匹配的部分，创建了 Alexandria 的新子集 (sAlexandria)。为了缩小数据集，研究人员删除了总能量 > 0 eV、力范数 > 50 eV/Å 和应力 > 80 GPa 的结构。最后，只对剩余轨迹中能量差大于 10 meV/atom 的结构进行采样。最终用于训练和验证的结果数据集分别有 1,000 万和 50 万个结构。

对于模型架构，研究人员选择 EquiformerV2，它是目前在 OC20 、OC22 和 ODAC23 排行榜上表现最好的模型。

对于模型训练，研究人员探索了 3 种策略：

* 仅在 OMat24 数据集上训练 EquiformerV2 模型，带有和不带有去噪增强目标 (denoising augmentation objectives)。这些模型具有最强的物理意义，因为它们仅适合包含与旧版 Materials Project 设置相关的底层伪势重要更新的数据集。

* 仅在 MPtrj 数据集上训练 EquiformerV2 模型，带有和不带有去噪增强目标，可用于直接与 Matbench Discovery 排行榜进行比较（标记为 compliant 模型）。

* 在 MPtrj 或 sAlexandria 结合的数据集上进一步微调 OMat24 或 OC20，从而进行 EquiformerV2 模型训练，使其成为 Matbench Discovery 排行榜上表现最好的模型（标记为 non-compliant 模型）。

下表展示了基于 EquiformerV2 架构训练的模型以及不同规格模型分别对应的参数总数和推理吞吐量：

模型训练的不同规格

基于 EquiformerV2 训练的模型在 Matbench-Discovery 排行榜表现最优

研究人员使用 Matbench-Discovery 基准对 EquiformerV2 模型进行评估，结果显示无论是在 compliant (仅使用 MPtrj 训练) 还是 non-compliant (使用额外数据训练) 的模型上，EquiformerV2 模型在排行榜上都达到了最优的表现 (F1 分数是主要评判指标)。

下图展示了 Matbench-Discovery 排行榜上其他 non-compliant 模型的表现。

图源 Matbench-Discovery 官网

结果显示 eqV2-M 模型的 F1 得分为 0.916，平均绝对误差 (MAE) 为 20 meV/atom，均方根误差 (RMSE) 为 72 meV/atom，为材料稳定性的预测设立了新的基准。

此外，仅在 MPtraj 数据集上训练的 EquiformerV2 模型也表现出色，这得益于有效的数据增强策略，如对非平衡结构进行去噪 (DeNS)。从上表可以看出，基于 OMat24 数据集预训练的模型在精度方面优于传统模型，特别是在处理非平衡配置时表现突出。

开源成为材料科学与 AI 融合的加速器

在当今这个由数据驱动的时代，AI 正以其前所未有的速度和精度，重塑着材料科学的研究范式。特别是围绕材料科学开源的 AI 知识、工具和数据，让更多研究人员、开发者甚至是爱好者有机会共同参与到创新的过程中，协力推进材料科学的发展。

对于此次 OMat24 开源数据集及其模型的发布，机器学习大牛、微软研究院首席科学家 Max Welling 在社交平台表示「我对 OMat24 这个新数据集感到特别兴奋，它催生了一个新的 SOTA 级别的机器学习力场基础模型。」

Materials Projec 数据集下载地址：

又如美国西北大学 (Northwestern University) 在 2013 年发布了开源量子材料数据集 OQMD，包含了 1,226,781 种材料的热力学和结构性质的计算结果，被广泛用于对多种材料应用进行高通量的 DFT 分析。
论文地址：
https://www.nature.com/articles/npjcompumats201510

2018 年，麻省理工学院 (MIT) 发布 CGCNN 模型。该模型在材料科学中应用广泛，通过图神经网络实现对材料性质的预测，如预测晶体材料的带隙、磁性和热力学稳定性等性质。
论文地址：
https://arxiv.org/pdf/1710.10324

2020 年，美国国家标准与技术研究院 (NIST) 发布 JARVIS 开源平台，专注于预测材料性质和电子结构。JARVIS-ML 是其机器学习模块，提供了丰富的数据集和基于机器学习的材料筛选工具，支持 DFT、分子动力学模拟和机器学习，能够帮助研究人员快速筛选和发现新材料。
论文地址：
https://arxiv.org/abs/2007.01831

2021 年，NIST 又发布了 ALIGNN 模型。该模型通过引入线图来捕获原子间的复杂相互作用，可以有效提高材料性质预测的准确性。
论文地址：
https://www.nature.com/articles/s41524-021-00650-1

可以看出，从高通量筛选到自动化材料设计，开源已经成为推动材料科学与 AI 融合的重要加速器，正引领材料科学进入更智能、更高效的新纪元。

参考资料：

1.https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/

3.https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/

查看原图 808K