AI——新的基础学科

2024年的诺奖,除了首日的医学/生理学奖,接下来的物理奖和化学奖不约而同地都给了人工智能领域,这两个奖项的授予是前无古人,但不一定是后无来者的决定。

物理奖给了普林斯顿大学的John Hopfield和多伦多大学的Geoffrey Hinton,肯定了两位步入古稀之年的老教授年轻时“充满波折”的研究成果,他们应用物理学工具发现了信息科技的研究新范式,奠定了强大的机器学习的基础理论,不断引发当前的科学研究范式改变与工程创新。

图片

化学奖颁给了蛋白质设计和结构预测AI工具的发明人,谷歌DeepMind的Demis Hassabis、John Jumper和华盛顿大学的David Baker。这项AI工具基于人工神经网络开发出用于预测蛋白质结构和设计全新的蛋白质。其中,谷歌开发的AlphaFold获得了2023年盖尔德纳奖,而盖尔德纳奖通常被认为是诺奖风向标。

图片

人工神经网络的发明,源于20世纪80年代。Hopfield和Hinton组装了不同的计算装置模拟人类大脑的认知模式,Hopfield发明了记忆网络,用于储存和重构图像;Hinton发明了一种从数据集中提取特征的方法,从而能识别图像中具有特异性的特征。正如诺奖委员会介绍的那样,Hopfield和Hinton的工作不仅是推动了物理学科的进步,也对我们的日常生活带来巨变,比如人脸识别、自动翻译等。同时,化学奖研究成果AlphaFold等对生命科学研究范式的改变,驱动着生命科学领域的研究从过去的“假设-实验-验证”试错模式转向了数据驱动的无假设研究范式,极大地缩短了生命科学领域重磅成果的“假设-验证-试错-再验证”的总体研究周期,简化了生命科学研究开发的复杂体系。

两个奖项的颁发,标志着AI已成为新的基础学科。我国即将步入第十五个五年规划期,基于化学奖对结构生物学带来的范式改变,今年的奖项将为我们部署产业设施与产业重大公共服务平台发展新质生产力提供一些参考和借鉴。

图片

学科融合的胜利

今年2个奖项的授予,可以说是学科融合的胜利,充分肯定了学科交叉融合的重要性,推动我们进入了一个对过去理论突破高效利用的新方式,对已有基础学科的存量理论突破性的进行交叉融合形成新的基础学科,产生新的理论突破,为人类探索自然的奥秘提供新的基础理论和新的研究工具,进一步拓宽我们认知世界的边界,以及人类发明创造的能力。我们国家的教书育人的系统是否需要与时俱进地创新学科设计?

物理奖的成果,两位科学家基于物理学中的能量概念,与数学、计算科学和神经科学的基础知识融合,开发出Boltzmann网络和Hopfield网络。新的基础理论突破从出现到引爆一个新的产业领域也需要多学科、多领域的并行突破和交叉融合,人工神经网络的识别精度在超大算力和高质量数据集的双重支撑下才被业界广泛认可与接受,也就是说“神经网络识别算法,GPU加持的算力与高质量数据集”三方面的完美融合,才引爆了当今的AI新纪元。

获得化学奖的蛋白质结构预测模型——AlphaFold的发明,更是体现了结构生物和计算生物学科领域的知识从量变的积累引发质变的迭代过程,Hinton的神经网络的价值在算力突破后被广为接受,为业界提供的新的算法架构。但如果没有全球结构生物学家共建的蛋白质数据库,基于神经网络的AlphaFold的训练可能就不会如此顺利,该数据库开放共享了200000+的蛋白质结构数据,而其中的每一个蛋白质数据都凝聚了结构生物家数年的“心血”。

工具的基础性作用

基于人工神经网络深度学习用于蛋白质设计的工具Rosetta和蛋白质结构预测的工具AlphaFold,彻底解放了当前结构生物学“严重依赖冷冻电镜平台和博士生夜以继日观察”的研发范式和劳动投入。并且一举推到了过去横梗在这个学科发展的几座大山:重资产(批量购买冷冻电镜建电镜平台),学生多(三班倒夜以继日地观察)、以及研究经费大(支持冷冻电镜平台运行),消除了由于硬件、经费和人员不足造成的研究成果(不是科研水平和能力)的差距。一举将结构生物学从过去的起点装备“贵族”化进化到“简装”易行,推动从业者进入创新、创造的竞争,行业的差距将由研究能力决定,而不是由硬件投入决定。

AI新工具的推广应用,革新了新药开发的路径和周期,新药开发工作将从过去的大海捞针般的装备投入和人员投入转为先验知识、高质量的产业数据集的积累。制药工业常说的10年、10个亿、上千人研发团队的新药开发模式将会得到明显转变。在数据库、计算设施等新型公共服务平台部署完善的情况下,未来仅需十几名或几十名研究人员组成的“轻量”新药开发团队可能将成为生物医药行业的常态。

同时,新工具的出现无疑会对现有工具和方法带来极大的破坏性,2020年AlphaFold2在蛋白质结构预测挑战赛中胜出后,主办方在大赛的总结陈词中就宣布“蛋白质结构预测难题已经解决了,大家都回家并换个研究方向吧。”

图片

但是人类的发展进化史就是一部工具和材料迭代的历史,石器、青铜和铁器等时代,每一次工具、材料迭代成功,就昭示着一个新时代的来临,而伴随着工具的进步迭代,我们认知极微世界的能力不断增强。此外,基于新工具的使用,人类社会对资源的使用能力、利用效率和发明创造能力也都在发生翻天覆地的变化。新的5年规划中,资助领域是否需要涵盖工具的研发,尤其是具有变革产业发展路径潜力的新工具与新方法。

数据驱动的产业设施——汇聚高质量数据集的数据库

AlphaFold的获奖,同时也是产业基础设施的胜利,总结下来有三件事催生了今年的诺贝尔化学奖成果。

第一,高质量的蛋白质数据库(Protein Data Bank)的开放共享,是今年化学奖的基础支撑。几十年来,全世界数千名的科学家(也包括中国科学家)上传并共享了其通过冷冻电镜,或射线衍射晶体分析等发现的蛋白质序列,以及提炼的蛋白质晶体结构,建立了公共的蛋白质数据库,该项目由一个国际科学家小组管理。可以说,DeepMind用于训练AlphaFold的数据是基于成千上万的科学家毕生工作而来。

由此可见,能汇聚高质量数据集的数据设施将是未来驱动科技创新带动产业创新的新型公共服务平台,真正开放共享的运行机制是其发挥产业设施作用的关键。

其次,提供一个开放融合、最大化数据库效用的公平竞争平台,建立起“生物学家上传蛋白质结构完善扩充数据库,给算法训练提供高质量数据集,获得蛋白质结构预测设计新工具”的良性循环。

20世纪70年代,John Moult读博士时厌倦了生物学繁琐耗时的实验主义方法,转向不断发展的蛋白质计算领域,给程序提供一些氨基酸以生成正确的蛋白质结构。逐渐地,John Moult看到了实验主义和计算主义融合的可行性:实验主义工作精细准确度高但缓慢费力,计算主义速度快但却为虚拟世界会经常出错。于是在1994年,Moult及其同事Krzysztof Fidelis联合设立一项社区科学实验,发起结构预测关键评估(the Critical Assessment of Structure Prediction(CASP) Competition),每2年一次。将数据库中的蛋白质结构作为一个公共基准参考,以赛事的形式,开放共享同一标准数据集,大家可以各显神通的展示其构架的蛋白质结构预测模型,用模型算法的准确率,和当时业界“金标准”得出的蛋白质结构的准确率作对比,看谁的准确性高。至今已持续了20多年,通过分享代码和技术,以友好竞争的形式,朝着解决蛋白质结构预测的目标前进。

首先参赛的是Baker的Rosetta,成为1998年的“必胜之人”。期间发生了共同进化概念的重大突破,Rosetta在2014年生成了2个结构非常准确的蛋白质,以至于当时的评审专家都以为Baker完全解决了蛋白质折叠的问题。到了2018年,AlphaFold首次参赛就取得令人惊叹的60分(过去24年,平均参赛得分不超过40分,满分100分);2年后的2020年,AlphaFold2参赛,完胜所有参赛队手。于是就有了赛后主办方那番“大家回去转行”的总结陈词。

最后,行业为增加数据库中的蛋白质种类以及多样性所做的各种努力:在建立数据库之初,就确定“开放共享”的基调,所有的基因序列开放,所有的结构开放。数十年的时间里,在数据库的基础上,行业通过CASP相互学习,建立起良好的数据共享文化。

为了推动代码的开放共享,Baker(2024年化学奖获得者)的实验室在2021年公布了其名为RoseTTAFold的代码,随后DeepMind也共享了其代码和根据该模型预测的2.14亿个蛋白质结构,进一步扩大了AlphaFold的影响,开创了“人人为我,我为人人”的新发展模式:有了AlphaFold数据库,大家可以搜索构造并得到基于任何单元或序列的蛋白质结构,即便是AlphaFold数据库中不存在的结构,研究人员也可以将其插入模型中,通过AlphFold的代码轻易得到结构预测。而共享了算法代码和其预测的蛋白质结构数据的团队在其发布AlphaFold2的四年后便获得诺贝尔奖。

虽然,在上传发现的蛋白质结构时,结构生物学家们自己也没有想到会有这么一天,上传进数据库的蛋白质结构数据会被人“翻译”成代码,通过机器学习算法处理,用于预测新的蛋白质结构,并设计出新的蛋白质结构。因此,今年的奖项不仅是站在巨人的肩膀上,而是在完善的数据设施基础上,站在了全世界结构生物学家们超大规模成果金字塔的顶端。

讨论

20世纪,学界推动政府部署了经由实验主义方法获得的蛋白质数据库,孕育催生了结构生物学领域的新技术和新方法,目前这些新技术已经足够强大,不仅拿了诺贝尔奖,还将引发制药工业的产业变革,AI驱动的药物设计和开发。

通常,基础技术决定了具体产品的开发方向,而竞争性技术决定了下游市场容量的大小。政府支持产业公共设施与基础研究,推动成果高效转化,鼓励下游竞争性技术的多元发展,以形成有利于个人和经济社会有利的重磅产品,甚至产生一个全新的蛋白质设计产业。开放共享的产业设施孕育新的基础性技术,新的基础性技术催生了下游竞争性技术的百花齐放,其实就是我国政府报告中提到“科技创新带动产业创新”的发展新路径。

计算主义者尽可能对当前已有的蛋白质序列和结构库中的数据进行高效利用,这对带动实验主义者产生新的高质量实验数据也至关重要,而新的数据进而又推动了AI算法的迭代:生物学家将从实验中发现的蛋白质上传至蛋白质数据库,数据库中高质量的数据集训练AI算法,形成蛋白质结构预测和设计的新工具,AI新工具进一步引发产生新成果、新应用和新数据,反过来又促进了工具的进化、迭代,循环往复,不断进步。

不过,虽然今年的化学奖对结构生物学领域已经形成了革命性的影响,但在生命科学领域,结构生物学只是其中的一个学科,生命科学领域的其他领域也会产生新的具有破坏性的AI工具吗?会有新的天才团队和世界级的公司出现吗?毕竟,今年物理学奖人工智能奠基性的成果在生命科学和生物技术领域的重大应用才刚开始呢!让我们期待着后有中国的来者!

图片

本文作者

刘沐芸

中国(深圳)综合开发研究院  特约研究员、细胞产业关键共性技术国家工程研究中心 主任、《中华细胞与干细胞杂志》 副总编辑

图片