AI驱动的化学研究新范式 | 中国化学2035发展战略

化学是一门研究物质的组成、结构、性质与功能及其演化的基础学科,在支撑环境、能源、材料、生命科学等诸多领域发展中起到举足轻重的作用。


当前化学学科的主流研究范式(实验、理论和模拟),均采用变量分离和降维简化真实体系复杂度的手段,以“试错”的方式寻找答案。这些研究范式在处理化学研究(如天然产物合成、仿生催化剂设计、新材料分子结构设计)体系时,其局限性和低效性日趋明显。以具备抗癌功效的天然产物紫杉醇为例,经过化学家几十年的努力探索,其人工全合成步骤依然十分烦琐,产率极低。催化剂的设计亦存在“盲人摸象”的问题。一个世纪前,哈伯—博施法的问世解决了工业合成氨问题,之后人类致力于发展在能耗上优于哈伯—博施法的合成氨催化剂,至今未有可规模化的应用方案。在针对特定性能的新材料分子设计中,该领域更是依赖于大量实验试错及科研人员的个人经验。在理论研究方面,量子化学计算为化学的定量化和可预测性提供了可靠的工具,然而在处理复杂化学体系的电子结构时经常受到计算资源的局限。正如狄拉克指出的:“对物理化学问题作数学求解的基本规则已完全清楚,困难在于应用基本规则的过程过于复杂而无法实现求解。”


随着大数据和AI 技术的快速发展,数据驱动的研究范式为解决这些化学难题带来了曙光。2016 年,美国哈弗福德学院亚历山大·J. 诺奎斯特(Alexander J. Norquist)教授等利用机器学习技术训练失败的实验数据,建立了准确率很高的金属有机骨架材料合成的预测模型。2018 年,上海大学马克·P. 沃勒(Mark P. Waller)团队提出了基于深度神经网络和符号AI 规划化学合成的模型,该模型规划的化学合成路线准确率可媲美合成化学专家,且效率更高。同年,普林斯顿大学Doyle 教授等证明了机器学习可以用来预测多维化学空间中合成反应的可能性。2019 年,犹他大学马修·S. 西格曼(Matthew S. Sigman)教授等发展了基于机器学习技术和化学反应数据库的新反应预测模型,大幅度缩小了开发新反应的搜索空间。2020 年,韩国蔚山国立科学技术研究所的巴托什·A. 格日比沃斯基(Bartosz A. Grzybowski)教授等发布了逆合成路线设计程序Chematica,借助机器学习和大数据技术实现了媲美合成化学专家水平的天然产物逆合成路线预测。在催化剂理性设计方面,2019 年伊利诺伊大学厄巴纳—香槟分校斯科特·E. 丹马克(Scott E. Denmark)教授等发布了一套基于分子描述符和实验数据驱动的高选择性手性催化剂预测工作流程,指导合成了高选择性的手性催化剂。AI 技术也推动着计算模拟方法发生变革,2021 年深度思考(Deepmind)公司的詹姆斯·柯克帕特里克(James Kirkpatrick)和马普固体物理与材料研究所的阿伦·J. 科恩(Aron J. Cohen)博士等基于深度学习,提出了Deepmind21(DM21)模型,该模型描述了电子密度和基态能量之间的关系,并且可以通过提高数据数量和质量来提升预测性能,这为化学计算与模拟提供了全新的手段。


我国学者也敏锐地抓住了AI 驱动化学发展的机遇。如清华大学与南开大学联合建立了国际上首个涵盖全面、数据权威的网络版键能数据库(Internet Bond-energy Databank,iBonD),可为AI 驱动的有机合成设计提供坚实的数据支撑。中国科学技术大学发展的蛋白质红外光谱机器学习方法为快速识别和预测蛋白质结构提供了新途径。北京深势科技公司开发的DeePMD-kit 为高精度定制计算模拟中的相互作用势函数提供了强大工具。近年来,我国学者在材料基因组计划中也取得了系列丰硕成果。


数据驱动的研究范式能在化学领域的研究中取得上述惊人进展,得益于以下因素:①化学研究产生了大量历史数据可供机器学习挖掘;②机器学习擅长高效地分析高维度、高复杂度的结构化数据,可以从数据中挖掘出变量之间的潜在关联,发现“隐匿”的科学规律。借助于机器学习,科学家可以突破思维局限,建立更有效的规律模型,进而更好地指导实践。数据驱动的研究范式具有突出的交叉前沿特质,需要多学科、多领域科研人员深度合作协同攻关。


图片

▲ AI 驱动的化学研究新范式


AI 驱动化学发现的基础是质量可靠的数据。然而,数据来源难以统一、数据收集往往耗费大量人力、数据质量良莠不齐、格式混杂和碎片化的问题严重,给数据的可靠性和可用性带来了挑战。针对数据收集,需要进一步开发自然语言处理工具,以取代高昂的人力和时间代价;将这些原始数据(包括“成功的”和“失败的”数据)经过清洗、贴标签、转换、注释、和提取等结构化和标准化处理后,构造可用的数据资源。因此,对多学科多领域的数据进行汇总,构建数据之间的关联,建立扩展性好、质量高的数据库,将为构建适用于化学学科的机器学习模型奠定基础。


发展数据鉴别模型,是数据清洗的前提条件。光谱是微观物质响应性质的反映。光谱数据可关联各种物性数据(化学特性、物理特性、几何结构、电子结构等),因而可用来提升数据模型的维度、精度和数据关联性。以光谱数据为核心,实现数据高效清洗,获得高质量化学数据,便可构造化学知识图谱。


描述符蕴涵物理规则,是构建定量构效关系的基础。基于知识图谱融合变量,发展自动提取描述符的算法,进而对描述符做解耦合,获得变量之间的数学关系式,就可以建立面向复杂化学对象的大数据预测模型,推动材料理性设计、全自动合成逆向预测等颠覆性技术的发展。


化学机器人的出现,标志着化学合成步入自动化、集成化时代。目前虽有其成功应用的例子,但化学机器人尚未具备智慧的“大脑”。因此,在AI 驱动的化学发现中,科研人员根据自身化学知识合理地收集数据及建立模型是最为关键的步骤,利用化学机器人对模型的实验进行验证可以加深科研人员对关键科学问题的认识,从而进一步优化模型,形成“模型向人学习、人向模型学习”的闭环,培养化学机器人并使其最终成为有“科研智慧”的机器化学家,协助科研人员进行创造性思考,指导能源、材料和生命科学等交叉领域的应用实践


图片


本文摘编自《中国化学2035发展战略》(“中国学科及前沿领域发展战略研究(2021—2035)”项目组编. 北京 : 科学出版社,2024. 9)一书“第七章 化学研究新范式”,标题为编者所加。本章参考文献略。



(中国学科及前沿领域2035发展战略丛书)

ISBN 978-7-03-079079-8

责任编辑:朱萍萍 姚培培