生成式人工智能在自然语言处理、图像生成以及蛋白质结构设计等领域已经展现出深远影响,其核心技术是生成模型。生成模型能够学习数据背后的概率分布,并通过采样生成新颖而自然的样本。若能为无机晶体构建合适的生成模型,将有望为材料发现与设计带来变革。然而,直接照搬语言或图像领域的方案并不可行。这是因为晶体材料作为一种特殊的数据模态,天然蕴含着对称性先验。自然界偏好对称的结构,这种偏好由空间群对称性严格刻画。事实上,自然界为我们准备了两张“表”:化学元素周期表和空间群的Wyckoff 位置表。要构建某种晶体,只需从元素周期表中选择原子,并依次放置在 Wyckoff 位置上。由此,晶体呈现出一种“意料之外、情理之中”的序列化表示。
基于这一认识,中国科学院物理研究所/北京凝聚态物理国家研究中心凝聚态理论与计算重点实验室T02组博士生曹振东和王磊研究员,与吉林大学物质模拟方法与软件教育部重点实验室博士生罗啸山和吕健教授合作,开发了CrystalFormer:一种基于空间群对称性设计的自回归晶体生成模型。CrystalFormer的核心思想是:通过对晶体数据库的学习,压缩内化固体化学规律,并以序列化方式生成晶体的Wyckoff占位与晶格参数,从而构造新的晶体结构。CrystalFormer以神经网络参数表达固体化学知识,以网络激活体现材料空间中的联想能力,并以概率模型的似然函数承载化学直觉,探索那些“自然界可能存在、但尚未被发现”的晶体材料。
CrystalFormer并不是“大语言模型”,而是一个专门讲述晶体原生对称性语言的生成模型;它也不同于机器学习力场,因为它不依赖于势能面优化,而是直接在对称性约束下“猜测”合理的晶体结构。在实际应用中,CrystalFormer 既可以无约束地探索整个材料空间,也可以针对性地产生具有特定结构特征的晶体材料。此外,通过与性质预测模型即插即用式的结合,CrystalFormer能够实现基于贝叶斯公式的材料反向设计。
总之,CrystalFormer 将晶体材料中的数学对称性与化学直觉统一在一个简洁、通用且灵活的生成模型框架中,为未来的晶体材料设计与发现提供了一个趁手的工具。该工作近期发表于Science Bulletin。工作得到了国家自然科学基金项目和中国科学院先导专项等的支持。
文章链接:https://www.sciencedirect.com/science/article/pii/S2095927325009752。基于JAX的开源代码实现和应用示例:https://github.com/deepmodeling/CrystalFormer。
CrystalFormer:融合空间群对称性的晶体生成模型