晶体结构预测(crystal structure prediction, CSP)技术能够仅依赖分子式预测材料的晶体结构, 其在识别稳定结构和探索多晶型方面展现出独特的优势, 已成为材料科学、药物学等领域不可或缺的工具. 自20世纪末以来, CSP方法经历了从初期侧重技术实现的探索, 到逐步实现高通量精确计算的阶段, 并发展为一种能够全面探索高维势能面、精确排序分子晶体能量的综合性算法.
中国科学技术大学陈林江研究员课题组综述了有机分子CSP的主要方法及策略, 同时介绍了机器学习等新技术在CSP领域的引入和应用情况, 并讨论了这些技术展现出的巨大潜力. 本文旨在为读者提供全面、系统的CSP技术进展回顾, 探讨当前的应用现状与挑战, 并展望机器学习为该领域带来的新机遇, 促进CSP技术在多领域的深入应用和跨学科融合.
有机分子晶体是通过分子间非共价相互作用而构建成的三维周期性固体, 其最终堆积结构主要受所有非键相互作用的平衡调控. 这一特性使得有机分子晶体与主要基于化学键连接的无机材料和框架材料等其他晶态材料在机制上有所不同. 分子在堆积状态下相较于溶液状态时可能产生显著差异, 如构象变化、振动受限、化学环境锁定等, 这些变化使得晶体在一些情况下会展示出比其组成成分更加优异的物理化学性质, 而这种变化通常都与分子在晶体内的排列和堆积方式密切相关. 研究人员会基于对有机分子堆积时相互作用的理解进行新颖的分子固体设计, 并揭示组分与结构之间的内在联系, 从而对晶体工程、超分子化学、材料科学和固体化学等学科提供理论依据和指导. 在诸如药物学、固体反应、选择性分离技术等众多领域, 有机分子晶体由于其独特性质而受到广泛关注.
晶体学家致力于从原子尺度理解晶体中基本的物理化学性质, 并试图通过微观上的结构特征与其宏观性能建立联系. 科学发展使得近年来研究者可以借助密度泛函理论(density functional theory, DFT)等精确方法准确计算如带隙、吸附能、表面静电势等相关性质, 从而为解释与预测材料宏观性能提供有力支持. 这种基于计算化学技术来揭示隐藏的组分-结构-性质之间关联的策略, 使得通过理论计算独立进行先验式预测并对实验进行指导逐渐成为可能. 该策略中, 从分子组成作为起点预测实验中可获得的晶体结构, 是进行后续固态性质计算的先决条件. 由于有机分子堆积方式并不遵循简单规律, 晶体结构难以简单依靠化学直觉判断, 其庞大的堆积势能面、多晶型以及共晶化学组分比例等复杂性, 均为有机分子晶体结构的预测带来了严峻挑战. 该挑战推动了晶体结构预测(crystal structure prediction, CSP)这一新兴领域的发展.
CSP的主要目标通常被概括为仅基于化学成分, 预测目标组分最可能形成的晶体结构, 该能力对新型分子材料的设计与发现至关重要. 自1999年起, 由于该问题所具有的巨大价值和挑战, 剑桥晶体学数据中心(Cambridge Crystallographic Data Centre, CCDC)不定期举办CSP盲测比赛(图1), 以促进技术交流并推动CSP领域的发展.
图1 晶体结构预测(CSP)盲测中使用的测试分子、举办年份和技术挑战
对于结构预测, 直观思路是利用分子动力学(molecular dynamics, MD)模拟在给定外界环境下构建目标体系模拟结晶过程, 即捕捉自然界或实验室中的演化过程来探索晶体结构. 然而, 基于牛顿方程方法在全局能量面采样极小值的效率极低, 结构之间较高的能垒会使模拟长时间停留在同一能量盆地(energy basin)内, 从而在有限的计算时间内难以有效探索整个势能面的最小值.
CSP通常采用一系列复杂步骤来全局化探索所在堆积空间的势能面, 包括但不限于结构生成、结构优化、能量计算及比对相似结构等一系列操作, 旨在聚焦那些势能面上更具有明显能量优势的结构. 精准预测还需要考虑包括温度压力等外界环境对自由能面的影响, 以及进一步影响极小值点之间的能量排名. 这类方法从根本上植根于热力学考量来解决CSP问题.
CSP的发展从最初单纯理论挑战发展到如今经历了多年的演变过程. 早期CSP方法通常局限于对称单元为整数的小型刚性分子体系, 且往往只关注不多于3个能量最低的结构; 如今的技术已经扩展到大分子、具有较高自由度的柔性分子、共晶体系以及由正负离子构成的晶体盐等更为复杂的系统. 这拓宽了CSP方法的应用领域, 使其在实验设计中更加具有实际价值. 除了寻求特定环境下实验可能的稳定结构外, 对于整个堆积势能面的全面探索也为目标体系的多晶型搜索及预测等提供了帮助, 这在药物、多孔材料、铁电材料等关注多晶型现象的领域发挥了巨大作用. 如今, CSP已成为许多研究中重要的一环, 完整探索的能量图景(energy landscape)能回答哪些体系可能拥有尚未被发现的高性能晶体材料, 为新型科研提供了重要支撑.
CSP技术的迅速发展离不开计算机硬件、计算方法以及人工智能技术的不断进步. 由于CSP需要在高维能量面上进行全局搜索, 这一过程通常会消耗大量计算资源, 同时必须在搜索广度与能量计算精度之间取得平衡. 早期CSP进步仍主要依赖于传统算法的改进和算力的提升, 如针对特定体系快速定制适用于目标分子的能量计算方法、生成策略的优化, 以及在构建能量图景后对晶体结构之间关系深入的理解等. 之后机器学习开始逐步展示准确性和计算效率方面独特的能力并开始赋能CSP的进步发展.
面对日益复杂的CSP问题, 近年来研究人员不断探索更加高效、准确且全面的晶体堆积空间搜索策略, 旨在减少高昂的CPU计算消耗. 与此同时, 机器学习技术的出现为化学领域解决高维度问题提供了突破的可能性. 依赖先进模型的推理能力, 机器学习力场在很大程度上突破了传统化学领域精度-效率之间必须做出取舍的桎梏, 在速度和精度中寻找到了更兼顾的优异方案. 机器学习在能量修正及高维势能面拟合的应用进展使得依靠DFT精度级别的机器学习势函数进行高通量计算成为可能, 为CSP提供了精确度逐级递进方法以外的选择, 同时在一定程度上避免了精度提升过程中错误地丢弃实验结构及高精度计算时间成本问题. 因此, 近年来一些研究纷纷将机器学习方法引入CSP过程中, 推动了预测成功率的上升趋势.
中国科学技术大学陈林江研究员课题组对近年来有机分子CSP领域的现状与进展进行总结, 包括概述CSP流程、总结领域内方法的进展、机器学习引入对CSP的帮助、应用场景及目前面临的机遇和挑战等. 期望通过对这些内容的梳理, 阐述现今这一晶体领域重要工具在推动相关研究进展中的作用, 激发研究者探索在理实交融和精准智能化学背景下对如何更好利用CSP解决科学问题.
本文收录于《中国科学:化学》2025年第6期“AI+化学专题”.
了解详情,请阅读全文
链接:赵成蹊, 陈林江. 有机分子晶体结构预测方法及应用进展: 传统技术与机器学习的结合. 中国科学:化学, 2025, 55(6): https://doi.org/10.1360/SSC-2025-0096
【JCR2024发布】
《中国科学》杂志社11种英文期刊继续稳居Q1区