
DRUGONE
晶体材料性质预测对于理解结构–性质关系以及加速新材料发现至关重要,但传统实验测量和第一性原理计算成本高昂,难以在大规模材料空间中应用。机器学习方法虽然能够从数据中学习复杂规律,但现有模型通常依赖大量标注数据,结构表示能力有限,并且缺乏物理约束,导致泛化能力不足。
研究人员提出一种可扩展的物理约束晶体基础模型 CLOUD,通过构建新的对称一致编码方式,将晶体的空间群、Wyckoff位置和组成信息表示为紧凑的字符串序列,并在数百万晶体数据上进行预训练。该模型在多种材料性质预测任务中表现出良好的可扩展性和泛化能力。进一步地,研究人员将模型与物理理论结合,实现可微分的材料建模,使模型能够预测温度相关性质并保持热力学一致性,展示了基础模型在材料科学中的潜力。

晶体材料性质的准确预测是材料科学中的核心问题。材料的电子结构、稳定性、热力学性质等都由晶体结构决定,因此能够从结构直接预测性质,将极大加速新材料设计过程。传统方法依赖实验测量或密度泛函理论计算,这些方法虽然准确,但计算成本高、速度慢,难以覆盖庞大的化学空间。
近年来,机器学习被广泛用于材料性质预测。早期模型多基于化学组成信息,虽然简单,但无法区分不同结构。随后出现的图神经网络利用原子坐标表示结构,提高了精度,但需要昂贵的结构数据,并且难以捕捉长程相互作用。为了兼顾效率与表达能力,研究人员提出无需坐标的结构表示方法,但仍难以同时保持结构信息完整性与计算效率。
此外,当前多数模型依赖带标签数据,而材料领域的高质量标签通常来自DFT计算或实验,获取成本极高,导致模型难以扩展。基础模型的思想提供了新的方向,即在海量无标签数据上预训练,再用于不同任务,从而提高泛化能力。与此同时,仅依赖数据驱动模型往往无法保证物理一致性,因此如何将物理规律融入模型成为关键问题。
方法概述
研究人员提出 CLOUD(Crystal Language Model for Unified and Differentiable modeling),这是一个基于Transformer架构的晶体基础模型。模型的核心思想是将晶体结构表示为类似语言的序列,并在大规模数据上进行自监督预训练,使模型学习通用的晶体表示。
模型的关键是新的晶体表示方法 SCOPE。该方法不使用原子坐标,而是通过空间群、Wyckoff位置和元素组成来描述晶体结构,从而在保持物理信息的同时减少计算复杂度。
模型首先在数百万晶体数据上进行掩码语言模型预训练,然后在具体性质预测任务上进行微调。
结果
SCOPE晶体表示
SCOPE将晶体表示为字符串形式,包括三个部分:
这种表示能够显式编码晶体对称性,使模型能够学习与物理相关的重要结构信息,同时避免使用昂贵的坐标数据。

图1: CLOUD模型总体框架。
基础模型训练
CLOUD使用Transformer编码器进行预训练,在超过600万晶体结构上学习通用表示。预训练后,模型可以用于多种下游任务,如材料性质预测和稳定性判断。

图2:SCOPE晶体表示方法示意及CLOUD微调任务结果。
可扩展性分析
研究人员进一步研究模型规模与性能的关系,发现模型性能随数据量和参数规模增加而稳定提升,符合神经网络的尺度规律。这说明构建更大的晶体基础模型是可行的,并有望进一步提高预测能力。

图3:CLOUD预训练过程中计算资源与最优模型规模关系。
物理约束建模
为了保证预测结果符合物理规律,研究人员将模型与经典物理理论结合,构建可微分的物理建模框架。
在案例中,模型预测晶体的特征参数,再通过物理模型计算热容和能量,从而保证结果满足热力学关系。
这种方法使模型能够在不同温度下预测材料性质,而无需额外数据。

图4:CLOUD-DEBYE:结合CLOUD的可微分物理建模框架。
温度依赖性质预测
研究人员验证了模型在不同材料体系中的温度依赖热容预测,结果与实验和DFT计算一致,说明模型具有良好的物理一致性和泛化能力。

图5:温度相关性质预测。
研究结果表明,CLOUD在多种材料性质预测任务中达到或超过现有方法,并在数据较少或分布外数据中表现更稳定。
模型能够在不使用原子坐标的情况下达到接近甚至超过图神经网络的性能,说明对称性编码对于晶体学习至关重要。
通过加入物理模型,预测结果更加稳定,并能够正确描述温度依赖性质,这在纯数据驱动模型中难以实现。
此外,模型在材料筛选任务中可以减少大量计算成本,提高新材料发现效率。
讨论
本研究提出的CLOUD模型展示了材料科学基础模型的可行性。通过显式编码晶体对称性、大规模预训练以及物理约束融合,模型能够实现高精度、可扩展且物理一致的材料性质预测。
研究人员认为,将物理规律嵌入机器学习模型是未来科学基础模型的重要方向。仅依赖数据驱动方法难以保证可靠性,而物理约束可以提高泛化能力并减少数据需求。
未来工作需要构建更大规模的晶体数据库,并改进结构表示,使模型能够处理更复杂的晶体体系,例如部分占位和缺陷结构。
总体而言,CLOUD提供了一种统一的材料基础模型框架,有望加速材料发现,并推动物理驱动人工智能在科学领域的发展。
整理 | DrugOne团队
参考资料
Xu, C., Zhu, S. & Viswanathan, V. CLOUD: A Scalable and Physics-Informed Foundation Model for Crystal Representation Learning. Nat Commun (2026).
https://doi.org/10.1038/s41467-026-70467-3