人工智能如何助力“算”出新药?

药物研发过程漫长而复杂,“先导化合物的发现”是关键一步。面对化合物多如牛毛、靶点信息有限、作用机制难以明确的困境,人工智能会发挥什么样的作用?

2024浦江创新论坛期间,上海国际计算生物学创新大赛面向业界出题:筛选出对NMDA受体亚型GluN1/GluN3A具有高活性的药物分子。来自上海科技大学的GeminiMol团队开发了一种人工智能模型,该模型通过融合化合物的成药性与构象空间信息以精准表征药物分子性质,从而显著提高药物筛选命中率。凭借这一创新方法,团队筛选出的分子在所有参赛队伍中活性最强,并以总分第一的成绩斩获一等奖。

“尽管人工智能带来的变革刚起步,但它已经显示出巨大潜力。”上海科技大学研究员白芳说,传统的计算生物学依赖物理模型驱动,需要将生物学现象抽象成数学公式,而人工智能的出现改变了这一局面,“即使缺乏精确的物理模型,人工智能依然可以通过‘数据驱动’的方法,将物理或生物现象直接映射到所需的输出结果。这种‘黑箱’特性使人工智能具有极高的应用潜力,但同时也限制了模型的解释性和可控性,因此展现出一种双刃剑的性质。”

从“大海捞针”到“对症下药”

为什么以NMDA受体亚型GluN1/GluN3A为题?记者采访了解到,NMDA受体是神经疾病的热门药物靶点,与脑卒中抑郁症癫痫、阿尔茨海默病、疼痛等多种疾病相关。而该受体亚型GluN1/GluN3A尚未被广泛开发,关于其蛋白结构和小分子调节剂的信息非常匮乏。

如果把受体比作门锁,那么药物分子就是打开门锁的钥匙。在不知道锁孔形状的情况下寻找钥匙,非常困难。

大赛的出题人介绍,研究人员以往普遍采用高通量生物实验的方法筛选药物分子,这一过程犹如大海捞针。

计算生物学可以通过模拟和计算加快这一进程。简单来说,计算生物学是利用计算机技术研究生物学的交叉学科,如今深度学习等人工智能技术可通过“干实验”(计算模拟)先从大量化合物中筛选出潜在的药物分子,相当于为生物学“湿实验”(生物实验)大幅缩小了范围。

“药物分子要发挥生物功能,与其自身多变的三维构象和蕴含的药效信息密切相关。我们开发的人工智能模型GeminiMol,通过对比学习的方式将构象空间信息融入分子表征中。与传统分子表征方法相比,这种方式显著提升了模型的表征能力和预测精度。”此次斩获一等奖的GeminiMol团队成员王世航说,团队先调研了一些已知活性分子,然后在大赛主办方提供的分子库中寻找与已知活性分子的三维药效构象高度相似、二维化合物结构不相似的新分子。

王世航表示,团队筛选出来的药物分子,对NMDA受体亚型GluN1/GluN3A的活性为0.98微摩尔,这一指标的含义是发挥出药物的作用需要的剂量,数值越小越好。

筛选药物分子的模型怎样打造

二维结构是生成分子数据的起点,构象空间则进一步反映了分子在自然状态下可能存在的动态形态。如果两个化合物在构象空间上非常相似,它们可能作用于相同的疾病靶标,有相似药效。

GeminiMol团队成员王林介绍,目前的分子相似性评价工具之所以有待提升,是因为其往往只关注分子的二维结构:“就像人们打招呼,握手和握拳的意义完全不一样,不同手势会产生不同效果,药物分子的空间构象也决定了其药效。”

人工智能的学习能力可以将人的经验转化为可靠的模型。王林表示,团队首先花费了大量时间对分子的构象空间进行采样,并投喂给人工智能模型进行学习。此外,团队通过计算分子间的构象空间相似性形成了一系列描述符号,让模型从描述符号数据中学习评价分子相似性的能力。

速度快,是人工智能模型的优点之一。以这次比赛为例,面对1800万个化合物分子,GeminiMol模型仅用不到半个小时就完成了筛选评价。

在筛选过程中,人工智能模型还可以“集百家之长”。“我们可以同时借鉴两三个已知活性较佳的分子,这样得到的新分子可能兼具所有已知活性分子的药效特征或结构信息。”王林说。

GeminiMol团队指导老师、上海科技大学研究员白芳表示,计算生物学经历了几十年的发展,如今迎来了从硬件到算法的显著进步。硬件方面,人工智能芯片、专门为计算生物学设计的高性能计算机提供了计算支持;算法方面,人工智能的第三次浪潮带来了机器学习的飞跃,深度学习等先进算法不仅提高了计算生物学的预测能力,还赋予了它创造新事物的可能性。

人工智能推动药物设计新范式

“人工智能赋能药物设计的空间非常大,未来会发展得更好。”白芳介绍,现阶段的人工智能模型并非全能,其带来的变革刚起步不久,很多药物设计任务中还需要基于物理模型的计算机辅助药物设计方法予以辅助。

生物制药中的问题通常是极其复杂的超高维问题,但当前的生物实验数据在数量上极为有限,质量参差不齐,并且数据之间难以对齐。“面对这些高维数据的挑战,我们往往需要借助物理模型对科学问题进行降维处理,以简化问题并降低数据量的需求。”白芳表示,这是权宜之计,虽然降低了对数据数量的依赖性,但也要付出一些准确性上的代价。

以药物设计的两种路线为例,一种是参考有药效活性的分子设计药效活性更佳的新分子,这正是GeminiMol团队人工智能模型的思路,业界探索广泛且成效初显;另一种则是基于靶标结构来设计与其适配并强结合的分子,人工智能对此虽然有一些尝试,但还不成熟。再如,业界希望让人工智能自动生成高活性的化合物,但生成全新化合物往往并不容易,理想与现实间还存在技术壁垒。

受访者提到,计算生物学的发展表明,单一学科的知识和经验已不足以应对当前的科研挑战。GeminiMol团队成员田思源表示,尽管团队主要负责人工智能工具的开发和应用,但验证环节涉及生物实验,这表明科研人员最好能了解并掌握从上游到下游各个环节的知识。

白芳呼吁,在人才培养方面,尽可能早地进行学科交叉学习和项目实践,“随着人工智能技术不断发展,学科交叉已是大势所趋,这种跨学科的合作和知识融合,将为解决复杂科学问题提供新的视角和方法。”