Reader

通过成分准确预测晶体结构,一种基于ML的CSP新方法

| 机器之心 | Default

通过在广阔的原子构型空间内寻找能量表面的全局或局部最小值,可以预测组装原子的稳定或亚稳态晶体结构。通常,这需要反复进行第一性原理能量计算,而这对于大型晶体系统来说往往不切实际。

日本统计数理研究所(The Institute of Statistical Mathematics)等机构的研究人员展示了在解决晶体结构预测问题方面取得的重大进展:研究人员利用一个包含大量虚拟晶体结构库和机器学习能量预测器,进行了非迭代单次筛选。

这种鸟枪法 (ShotgunCSP) 包含两个关键技术组件:用于精确预测松弛前晶体状态能量的迁移学习,以及两个基于元素替换和对称性限制结构生成的生成模型,用于生成有前景且多样化的晶体结构。

第一性原理计算仅用于生成训练样本并优化少数选定的预松弛晶体结构。ShotunCSP 方法比传统方法计算量小,且表现出卓越的预测精度,在 90 种不同晶体结构的基准测试中达到了 93.3%。

该研究以「Shotgun crystal structure prediction using machine-learned formation energies」为题,于 2024 年 10 月 20 日发布在《npj Computational Materials》。

图片

晶体是由原子或分子周期性排列形成的固体,广泛应用于半导体、药物、电池等诸多领域。晶体的结构对材料的特性有着重要的影响。在材料开发过程中,材料的合成需要投入大量的时间和精力,因此,提前预测晶体结构的技术至关重要。

根据化学成分预测能量稳定或亚稳态晶体结构一直是材料科学领域的长期挑战。原则上,晶体结构可以通过求解原子构型空间内的能量最小化问题来确定,而能量评估通常采用基于密度泛函理论的第一性原理计算。

晶体结构预测(CSP)通常通过将第一性原理计算与优化算法相结合来解决。例如,遗传算法通常用于沿能量梯度迭代修改原子构型,以寻找能量图上的全局或局部最小值。

然而,这些传统方法每一步都需要通过第一性原理计算迭代松弛大量候选结构,导致计算成本极高。对于每单位晶胞包含 30 至 40 个或更多原子的大规模体系,这种限制尤为严重,现有方法在精确解析晶体结构方面面临巨大困难。

最近的基准研究表明,当前的 CSP 算法只能预测不到 50% 的晶体系统,这突显了其性能的明显局限性。

统计数理研究所的研究团队致力于开发一种非迭代 CSP 算法,从而消除重复的第一性原理计算。

首先,他们利用机器学习构建了一个能量预测器,用于近似第一性原理计算的能量计算。通过应用迁移学习,他们发现只需少量训练数据即可构建出高精度的能量预测器。

接下来,他们使用新开发的晶体结构生成器创建了有前景的虚拟晶体结构。然后,他们利用能量预测器缩小了最有可能形成稳定结构的候选结构范围。

最后,他们运用第一性原理计算,对选定候选结构的能量进行弛豫,并根据达到最低能量的晶体结构预测其稳定结构。该算法被命名为 ShotgunCSP,其灵感源于霰弹枪(鸟枪)在广阔区域散开时的图像,并仅仔细分析其击中目标的情况。

图片

图示:ShotgunCSP 算法的工作流程。(来源:论文)

ShotgunCSP 的一个关键组件是晶体结构生成器。由于大规模系统的结构空间巨大,有效缩小搜索空间至关重要。该团队发现,机器学习可以用来预测任何给定成分(例如空间群和 Wyckoff 位置)的稳定结构的对称性,并且精度极高。这一突破使得搜索空间得到有效减少,在保持高精度预测的同时显著降低了计算成本。

空间群是表征晶体对称性的数学框架,代表一组几何运算(例如平移、旋转、反转和反射),将晶格中的原子排列映射到其原始位置。所有晶体都分为 230 个不同的空间群。

研究小组证明,通过使用在晶体结构数据库上训练的模型,他们可以将稳定结构的可能空间群缩小到前 30 个左右,从而几乎可以完全识别任何给定组成的空间群。

Wyckoff 位置描述了特定空间群的对称操作所允许的原子构型的自由度。每个原子都被赋予一个 Wyckoff 标签,按照相应规则进行位移的原子位置保持原有的对称性。该团队表明,通过利用机器学习,他们可以有效地缩小任何给定组合物中每个原子的 Wyckoff 标签分配范围。

利用这些对称性预测器,可以显著缩小晶体系统的搜索空间,从而显著提高 CSP 的准确性。根据本研究进行的大规模性能评估,ShotgunCSP 能够准确预测约 80% 的晶体系统。其性能远超团队此前研发的基于元素替换的 CSP 算法 CSPML,该算法在近期的基准测试中名列前茅。

图片

图示:通过 ShotgunCSP 算法预测的晶体结构示例(以 VESTA 版本 3.5.8 描述)。(来源:论文)

CSP 算法是加速新材料和科学发现发展的基础技术。

通过识别材料的稳定结构,可以在探索高温超导体、电池材料、催化剂、热电材料、药物分子,甚至高温高压等极端条件下的材料结构方面取得重大进展。

研究团队发现了一种不同于传统方法的新方法,利用机器学习来缩小稳定相的晶体对称性,成功显著提高了 CSP 算法的预测性能。此外,ShotgunCSP 算法设计简单,与并行计算兼容性好,随着计算规模的扩大,性能有望进一步提升。

论文链接:https://www.nature.com/articles/s41524-024-01471-8

相关内容:https://phys.org/news/2025-04-crystallography-ai-high-crystal.html