
第一作者:程观剑(Guanjian Cheng)
通讯作者:尹万健教授
通讯单位:苏州大学,上海期智研究院
研究背景
尽管有这种潜在优势,但基于ML的CSP方法仍然存在挑战:首先,ML模型应对晶体结构有敏感的响应,固定结构模型和对称不变模型在确定具有任意晶胞形状和原子坐标的基态结构(GSS)时可能不适用或受到限制。其次,ML模型的DFT级精度是从稳定晶体结构组成的训练数据中获得的,而搜索过程中的大多数结构都是亚稳态或不稳定的。最后,需要探索与ML模型兼容的优化算法。
成果简介
图文详情
两个基准数据集,版本1.3的OQMD和MatB用于GN模型训练和评估。对于 OQMD,进行数据清理以排除具有不完整信息和限制的数据:(i)晶胞中的原子数(<50),(ii)PBE作为交换相关函数,(iii)动能截止(520 eV),确保数据尽可能可靠。因此,获得了超过320000个数据点,包括约40000个实验已知数据和280000个假设数据,涵盖85个元素、7个晶格系统和167个空间群。MatB包括约132000个数据点,涵盖84个元素、7个晶格系统和227个空间群。对于OQMD和MatB,采用相同的数据拆分比例,即训练集(50%)、验证集(12.5%)和测试集(37.5%)来构建CSP的GN模型。
图1. GN-OA方法的流程图
在最初的GN中,图由三个成分定义,即节点(vi)、连接节点的边(ek)和全局属性(u)。考虑到晶体中存在多个原子和对,晶体图在数值上表示为G({vi} i=1,nv, {ek} k =1:ne, u),其中vi和ek是第i个原子和第k个对的属性,nv和nk分别是单元中原子和对的数量。在作为晶体图的MEGNet架构中,v和e是原子序数和空间距离,分别由从模型训练中学习到的Nv和Ne维向量(Nv和Ne是超参数)表示。因此,作者在原子属性{vi}之后添加了一个具有Nv×nv矩阵的嵌入层,在{ek}之后添加了一个nv×nv×Ne矩阵,其中nv×nv表示两个原子之间的对连通性。基于此,作者构建了GN模型以建立晶体与其ΔH之间的相关性:由矩阵{vi}和{ek}表示的晶体图作为输入,ΔH作为输出。
要点2:GN模型性能与优化
使用两个数据库中的数据各自训练GN模型,导致两种不同的GN模型,GN(OQMD)和 GN(MatB)。结果表明,GN(OQMD)的MAE (16.07 meV/atom)低于GN(MatB)(31.66 meV/atom),同一MatB数据集上1 meV的微小差异可能源于不同的数据拆分,插图显示MAE随着训练数据的数量而系统性下降。OQMD的更好性能可归因于其更大的数据库(约320000个数据),是MatB的两倍多。尽管GN(OQMD)的MAE较小,但其在CSP上的性能不如GN(MatB),表明GN(OQMD)可能过度拟合。
图2. GN模型的性能
丰富的实验数据表明,大多数低温晶体结构具有对称性并且添加对称约束将加速 CSP。作者通过添加2个额外的结构特征来处理CSP,即晶体对称性S和第i个原子的Wyckoff位置Wi,这是通过229个空间群和相关的1506个Wyckoff位置选择的。空间群S和相应的{Wi }是CSP期间优化后的变量,具有对称约束以生成Crys({vi}, S, {Wi}, {Ri}, L)。为了实际实施,作者还添加了一个额外的约束(4.0 Va > V > 1.0 Va,Va是组成原子的体积总和)以避免产生体积极小/极大的不合理结构。
理想情况下,如果可以列举所有可能的晶体结构并基于GN模型获得其ΔH,通过选择Δ H最低的晶体结构即可简单解决CSP问题。然而,枚举所有可能的结构是一个长期存在的挑战。为此,作者采用了三个OA:RAS、PSO 和BO进行优化。具体而言,作者通过基于Parzen估计树(TPE)的高斯混合模型应用BO 来探索结构空间。与在低维空间(特征数<20)中表现更好的基于高斯过程的普通BO算法相比,基于TPE的高斯混合模型在高维空间表现出更高的效率。
要点3:GN-OA方法的应用
作者以CaS为例,比较RAS、PSO和BO在CSP上的性能与在MatB上训练的 GN 模型的性能,迭代中ΔH的演变中可以清楚地看到三种OA的特征。对于RAS,ΔH在能量尺度中随机分布。同时,PSO可以快速找到低ΔH构型,但它可能会停留在局部最小值。相比之下,BO是一种在开发和探索之间取得平衡的算法,具有更高的跳出特定局部最小值的能力。在这种情况下,GN(MatB)-RAS和GN(MatB)-BO分别在第2503和第372步迭代时找到正确的GSS,而GN(MatB)-PSO在5000步内仍找不到正确的 GSS。对于GN(MatB)-BO,在第207步发现GSS,晶格常数为6.50 Å,然后其显示出将晶格常数优化为5.77 Å的能力,接近5.72 Å的DFT计算值。
图3. GN-OA的过程和性能
接下来,作者将GN-RAS、GN-PSO和GN-BO的方法应用于28种其他化合物的 CSP。结果显示:(i)与CaS所示的情况一样,无论GN是在OQMD还是MatB上训练,CSP的OA精度遵循BO > RAS > PSO;(ii)无论采用RAS、PSO还是 BO,在MatB上训练的GN模型对CSP的准确度比在OQMD上要好。最终,GN(MatB)-BO表现出最好的性能,它可以准确预测以下25种化合物的晶格常数和绝对能量差,平均误差分别为2.24% 和20.8 meV/atom。
图4. 由 GN-OA和DFT导出的GSS的比较
要点4:方法评估
准确性和效率是评估CSP方法的两个标准。准确性方面,由于GN模型是基于DFT计算的数据进行训练的,因此它无法超越DFT结果的准确性。在成本方面,GN(MatB)-BO比基于DFT的CSP更高的效率完成任务。计算时间考虑在 CPU 内核[Intel(R) Xeon(R) Silver 4210 CPU@2.20GHz]上运行,作者比较了DFT-PSO和GN(MatB)-BO预测25种化合物的计算成本,发现GN(MatB)-BO的计算成本比基于DFT的方法低三个数量级。
图5. 该方法与基于DFT方法计算成本的比较
结论展望
文献信息
https://www.nature.com/articles/s41467-022-29241-4