
作者:哇塞
编辑:李宝珠
转载请联系本公众号获得授权,并标明来源
哥伦比亚大学、斯坦福大学的研究人员提出了一种基于扩散模型的生成式人工智能结构解析方法 PXRDnet。即便仅以化学式和信息稀缺的有限尺寸展宽粉末衍射图为条件,该模型也能成功解析 200 种不同对称性和复杂性的模拟纳米晶体,涵盖来自所有七个晶体系统的结构,最小粒径可至 10 Å。
X 射线衍射(X-ray diffraction, XRD)的发现和应用堪称晶体学发展中的一个重要里程碑,因为该技术使得人们能够深入了解晶体的微观结构,继而带动了材料学和整个人类文明的进步。然而,当传统的方法与由微小颗粒组成的粉末状纳米晶体不期而遇时,理想的结果却并未发生。
由于纳米晶体尺寸有限(通常小于 1000 Å),其 X 射线衍射图谱中布拉格峰会出现明显展宽,导致结构信息出现严重的实质性退化,这为精确解析其晶体结构带来了巨大挑战。除此之外,实际情况中难以获取纯单晶样品会进一步加大结构解析的难度,纳米晶体结构解析也成为了困扰材料科学界长达百年之久的「世纪难题」。
针对于此,哥伦比亚大学、斯坦福大学的研究人员提出了一种基于扩散模型的生成式人工智能结构解析方法 PXRDnet。该模型利用已知的 45,229 个晶体结构作为训练数据,引入统计先验知识。即便仅以化学式和信息稀缺的有限尺寸展宽粉末衍射图为条件,PXRDnet 也能成功解析 200 种不同对称性和复杂性的模拟纳米晶体,涵盖来自所有 7 个晶体系统的结构,最小粒径可至 10 Å。实验结果表明,该模型可以成功并可验证地确定 5 次中的 4 次结构候选者,通过 rietveld 细化 r 因子测量后平均误差仅为 7%。
相关研究以「Ab initio structure solutions from nanocrystalline powder diffraction data via diffusion models」为题,发表于 Nature Materials。
研究亮点:
* 该成果破解了长期困扰材料科学界的纳米晶体结构解析难题,并提供了一款高效的人工智能解析工具,有望推动纳米技术、生物医学、能源存储、电子器件等多领域的创新应用
* 该方法显著突破了传统方法的适用边界,并在多个案例中获得接近真实结构的候选解
* 研究提出了 MP-20-PXRD 基准数据集(包含 Materials Project 中 20 个原子以内的稳定材料及其模拟衍射数据),并公开了代码和数据集,为后续研究提供了统一标准
论文地址:
https://go.hyper.ai/r1K6b
关注公众号,后台回复「纳米结构」获取完整 PDF
Materials Project 在线材料数据库:
https://go.hyper.ai/2gCe9
数据集:提出 MP-20-PXRD 基准数据集
为了得到有效的模型,研究人员提供了一个名为 MP-20-PXRD 的基准数据集,用来对 PXRDnet 进行以端到端的训练。
具体来说,研究人员采用了 Materials Project 的 MP-20 数据集,该数据集由从 Materials Project 数据库中采样的材料组成,其晶胞内原子数量最多为 20 个。然后研究人员采用 pymatgen package 模拟 MP-20 中所有结构的粉末衍射图。
Materials Project 在线材料数据库:
https://go.hyper.ai/2gCe9
模拟采用了 Cu Kα 辐射,且 Q 值范围为 0-8.1568 Å⁻¹。
MP-20-PXRD 数据集包含 45,229 种材料,按照 90%、7.5%、2.5% 的比例用以训练、验证和测试。值得一提的是,MP-20-PXRD 数据集已被开源,研究人员希望以此激励「后来者」进一步探索纳米晶体结构解析新方案。
模型架构:基于 CDVAE 打造,引入 PXRD 回归器
PXRDnet 模型基于 CDVAE 架构设计,主要包含 3 个主要分支,即原子去噪声分支、变分自编码器(variational autoencoder, VAE)分支和 PXRD 回归器,它们通过共享的高斯潜在码相连接。该方法使得 PXRDnet 能够在给定 PXRD 模式和化学式的情况下,准确生成符合要求的材料结构候选,为纳米材料结构解析提供了新见解。
PXRDnet 训练过程
基于 CDVAE 的骨架开发
介绍 PXRDnet,就不得不提到 CDVAE 模型,这是前者创建的基础。CDVAE 是一种材料结构生成模型,其灵感来自于变分自编码器和去噪扩散网络,是一种学习从噪声中解压缩数据的生成模型。
为了理解 VAE 和扩散组件的分解,研究人员认识到材料的晶胞可以用 4 个组件来表示,即化学成分、原子数、晶格参数和原子坐标。
CDVAE 的第一个分支使用 VAE 处理前三个组件,编码器为 DimeNet —— 一种 SE(3)- 不变图神经网络(SE (3)-invariant Graph Neural Network),它可以将材料的图表示映射为潜在表示 z。图表示被修改为有向多重图,以体现材料固有的周期性。然后研究人员通过 kullback-Leibler 散度损失,潜在表示 z 被正则化为多元高斯分布,接着从 z 解码出化学成分、原子数和晶格参数。
每个预测都由一个单独的晶体参数多层感知器(MLP)生成,该感知器接收潜在编码 z。z 将在随后模型的所有其他分支中用作材料表示。
CDVAE 的第二个分支通过噪声条件评分网络(noise-conditioned score network)利用去噪扩散来处理组件。它假设组件原子数和晶格参数是固定的,正向过程用多元高斯噪声扰动原子坐标和原子种类;反向过程用 GemNet 参数化,这是一种 SE(3)- 等变图神经网络 (equivariant graph neural network)。该过程以上述潜在编码 z 为条件,这是其正常工作的基础。
值得一提的是,反向过程本质上是预测如何通过 Langevin 动力学对受扰动的原子坐标和种类进行去噪,使它们移动到真实位置并恢复为真实种类。同样输出图表示是一个有向多重图,与材料的周期性兼容。
生成阶段,CDVAE 首先从多元高斯分布中采样一个潜在代码 z ≈ N(0, I),利用晶体参数多层感知器对其进行解码,获得组件化学成分、原子数和晶格参数,这可用于初始化一个晶胞,其中原子位置同样从 N(0, I)中随机选择,然后通过 Langevin 动力学 SE(3) 等变图去噪过程对原子位置和种类进行优化,其整个去噪过程中,晶格参数和原子数保持不变,最终得到生成材料。
专门设计的 PXRD 回归器
此外,在本次研究中,粉末 X 射线衍射(PXRD)图谱设定为期望预测的属性,因此研究人员设计了一个 PXRD 回归器 Fψ,它将 PXRDnet 的潜在材料表征 z∈R256 映射到一个向量 y∈R512,即材料 PXRD 图谱的估计 Q 空间表征。
PXRD 回归器由 DenseNet 启发的架构进行参数化,该架构扩展了传统的卷积神经网络。回归器基于 CrystalNet 的设计,具有一维输入和输出的密集连接架构。具体来说,对于网络中的给定深度,DenseNet 将先前的中间数据表征聚合起来,作为下一个卷积层的输入。如下图所示。
PXRDnet 的 PXRD 回归量可视化展示
研究表明,DenseNet 减少了梯度消失问题,并在标准计算机视觉基准测试中取得了出色的结果。
实验结果:具备真实场景应用潜力
通常,纳米结构被定义为尺寸小于 1000 Å 的晶体,但为了测试所提方法的有效性,研究人员将晶体的尺寸降低了两个数量级,通过傅里叶分析的数学原理过滤方法,模拟了晶体尺寸为 10 Å 和 100 Å 的 PXRD 方法。如预期,10 Å 情况下比 100 Å 情况显示了更多的峰展宽,代表信息退化更验证。如下图所示。
纳米材料的 PXRD 图谱
该图展示了研究人员通过 sinc² 滤波模拟纳米尺度收缩对 PXRD 峰的影响。其中,灰线代表了理想模式,紫线代表经过处理后展宽的 PXRD 峰。为了提升模型性能,研究人员在 sinc 滤波后进一步应用了一个额外高斯滤波器,虽然这会加大展宽衍射峰,但却能有效消除由滤波引起的锐利波纹。横轴表示散射矢量的大小为 Å⁻¹,纵轴为缩放后的衍射强度,其中 1 表示最大强度值。
接下来,研究人员展示了 PXRDnet 结构预测,如下图所示。其中最左边的一栏为真实晶体结构,其他列显示了 PXRDnet 所模拟的直径为 10 Å 和 100 Å 的纳米晶体在 PXRD 模式中重建后晶体结构,并经过 Rietveld 精细化修正。
PXRDnet 结构预测
结果显示,PXRDnet 在对各种无机化学成分的材料结构解析中表现出色,其中 100 Å 模拟晶体尺寸的性能略好,而更具挑战的 10 Å 模拟晶体尺寸的情况下,依旧表现出色。例如,PXRDnet 可以成功捕获 Cs₂YCuCI₆ 和 SmMn₂SiC 等材料的晶体形状,还成功捕获了 Cs₂YCuCI₆ 和 BaSrMnWO₆ 等材料的对称性。除此之外,即便在极端某些情况下,如 Li₅Nb₂Cu₃O₁₀ 或 Sb₂F₁₃ 等失效情况下,PXRDnet 依旧能够为实验提供有价值的参考。
下图展示了真实 PXRD 模式、PXRDnet 原始预测模式和经过 Rietveld 精修后模式的结果对比,展示了预测模型与真实数据之间的温和程度,同时验证了 Rietveld 的必要性,能够有效提升模型预测精度。例如,在 100 Å 情况下,Sb₂F₁₃ 预测差值为 0.681,经过精修后(AI+Rietveld)来到了 0.019。
真实 PXRD 模式、PXRDnet 原始预测模式和经过 Rietveld 精修后模式的结果对比
以下表格展示了 PXRDnet 能够成功重构 MP-20 中的材料,与 CDVAE-Search 基线相比,PXRDnet 的预测结果更加突出。
材料结构重建情况
为了进一步改善结果,研究人员对 PXRDnet 解析的 20 种均匀选取的结构进行了 Rietveld 精修,每个结构选取排名最高的 10 个候选输入。如下图所示。
Rietveld 精修结果,a、b 分别为 10 Å 和 100 Å 纳米晶体尺寸的结果
结果显示,Rietveld 精修对于 100 Å 的测试非常有效,因为它们具有更清晰的 Bragg 峰值,在 20 个测试结构中有 18 个的结果差值都将至 20% 以下,15 个将至 10% 以下。这表明尽管其中仍有一些小问题,但 PXRDnet 仍然能够持续输出接近真实结构的结果,而在每个案例中加入适当人工干预就能得到正确结构。
最后,研究人员通过实验验证了 PXRD 测试性能,数据来源于 IUCr 数据库。如下图所示。
实验数据
最左列为基准结构,基于 IUCr 数据库获取的实验观察 PXRD 模式,中间为 PXRDnet 预测结构,右侧为 TOPAS(v.7)模拟 PXRD 与实际实验观测 PXRD 的比较。结果显示,PXRDnet 克服了模拟到实际的差距,其结果在视觉分析和定量指标上与从模拟数据中获得的结果相当,显示了所提模型在真实场景中应用的潜力。
AI 与材料科学界交叉融合,解决百年难题
PXRDnet 的提出,解决了材料科学界长达一个世纪的难题。正如论文所说,该方法与任何结构解决方案一样,并非百分之百成功,但是却为探索结构解析提供了一个候选方法,从而打开了更多通向成功的大门。
当然,PXRDnet 的成功并非一蹴而就的,而是站在巨人的肩膀上不断探索的。在人工智能与纳米材料的交叉领域,有无数的科研人员不断攻关。
比如麻省理工学院、斯坦福大学等团队以「Crystal Structure Determination from Powder Diffraction Patterns with Generative Machine Learning」发表的研究,其中提出了一种开创新的生成式机器学习模型,能够从真实实验 PXRD 数据中求解晶体结构。在实验中,研究人员预测了来自 RRUFF 数据库的 134 个实验图案和来自 Materials Project 的数千个模拟图案的结构,其模型匹配率分别达到了最先进的 42% 和 67%。
论文地址:
https://pubs.acs.org/doi/10.1021/jacs.4c10244
另外,来自中国科学院、上海交通大学、清华大学、中国人民大学的团队也曾发表相关研究,提出了一个端到端神经网络 PXRDGen,能够通过学习实验稳定晶体及其 PXRD 的结构分布来确定晶体结构,并通过 PXRD 数据提炼出原子精度的结构。该模型继承了一个预训练的 XRD 编码器、一个基于扩散/flow-based 的结构生成器和一个 Rietveld 细化模块,仅需几秒就能精确实现结构解析。相关研究以「Powder Diffraction Crystal Structure Determination Using Generative Models」为题发表。
论文地址:
https://arxiv.org/abs/2409.04727
总而言之,PXRDnet 以及其他方法的探索,实现了材料科学界从传统方法向着人工智能与材料科学交叉融合的方向前进,不仅实现了实质性的突破,解决了材料科学界所面临的难题,同时也为后续的研究提供了新的思路和方法,为今后材料学发展注入了新的活力。


戳“阅读原文”,免费获取海量数据集资源!
(文:HyperAI超神经)