撰文:吴洋洋
编辑:王杰夫
Key Points
今年诺贝尔化学奖颁给了三位致力于用计算而非实验来预测蛋白质结构的科学家;
早在1998年,David Baker团队就推出了可以模拟蛋白质结构的计算工具Rosetta,大幅领先其它预测方法,并且这个优势维持了近20年。
2018年,DeepMind发布了其在蛋白质预测模型AlphaFold,一举推翻了Rosetta的霸主地位,关键就在于它们将AI神经网络应用到了蛋白质预测中;
「AI药物发现」已经成为生物医学领域数十亿美元的大生意。
继诺贝尔物理学奖颁给两位研究人工神经网络的人士后,诺贝尔化学奖再次砸向AI。
10月9日,2024年诺贝尔化学奖公布,一半授予David Baker,以表彰其在「计算蛋白质设计方面的贡献」;另一半则授予Demis Hassabis和John M. Jumper,以表彰他们「在蛋白质结构预测方面的成就」。
三个人的工作都与AI有关。
Demis Hassabis和John M. Jumper都来自Google DeepMind,他们「在蛋白质结构预测方面的成就」主要是指一系列用以预测蛋白质结构的AI模型——AlphaFold,其中前者是DeepMind的联合创始人兼CEO,后者则是该模型的主要负责人。
David Baker目前是华盛顿大学蛋白质设计研究所所长,他曾开发过设计自然界从未出现的新型蛋白的技术,并因此获得2020年科学突破奖生命科学奖。此外,他还设计过一款比AlphaFold更早的蛋白结构计算软件——Rosetta,多年领跑两年一届的国际蛋白质结构预测大赛(the Critical Assessment of Techniques for Protein Structure Prediction,简称CASP),直到AlphaFold诞生。
David Baker和Demis Hassabis、John M. Jumper团队之间的蛋白质结构预测竞争,主导了结构生物学领域过去20年的走向。
最早企图用计算取代实验的生物学家
David Baker本人原本在哈佛大学读哲学和社会科学,本科期间看到的一项有名实验改变了他的学术和人生轨迹。
这个实验来自于1960年代的生物化学家Christian Anfinsen,他发现:把蛋白变性剂加入RNA酶后,RNA酶切割RNA的能力就会消失,而把溶液中的蛋白变性剂蒸发后,RNA酶的活性又会神奇地恢复。
这个实验涉及的问题是:加入变性剂会让蛋白质结构变得无序,但在合适条件下蛋白质又可以自发折叠成正确的形态,那么,蛋白质是如何「自主」找到正确的折叠路径的?
生物化学家一直想搞明白这个问题,但直到David Baker开始读大学的1980年代,这个问题依然没人弄明白。本科最后一年,David Baker开始选修发育生物学,并转专业读了生物学研究生。
博士毕业后,Baker开始思考一个新问题:如果蛋白质结构由氨基酸序列决定,那么结构生物学家繁重而枯燥的结构解析工作是否可以用计算机来完成?就此诞生的就是Rosetta系列软件。
1998年,Baker团队推出最初版本的Rosetta,这一工具通过先分析蛋白质的生物物理特性,模拟出大致形状,然后进行微调,只留下自由能最低的结果。(自由能指一个系统在恒温恒压下能够用来做功的能量,而在蛋白质折叠过程中,蛋白质倾向于折叠成自由能最低的构象,这种状态代表系统更稳定)
在第3届国际蛋白质结构预测大赛中,Rosetta开始崭露头角,并在之后相当长时间里引领其他模型,直到2018年DeepMind的AlphaFold出现。
DeepMind加入竞争
2018年,DeepMind发布了其在蛋白质预测领域的第一个尝试——AlphaFold 1。和Rosetta等模型不同,AlphaFold使用了深度学习的方法,并引入了基于注意力的神经网络,学习了蛋白质数据库(Protein Data Bank,一个专门收录蛋白质及核酸的三维结构资料的数据库)的所有蛋白结构数据。
在第13届国际蛋白质结构预测竞赛(CASP13)上,AlphaFold成功预测了43种蛋白质中的25种蛋白质的精确结构,领先其他模型——包括Rosetta,取得第一名。
只用30分钟,Alphafold就能解决一个10年没有被揭示的蛋白质结构。然而初代Alphafold预测都是二维的「接触图」——这种图是一个二维矩阵,只告诉研究人员哪些氨基酸是相邻的,并标注了这种连接,但不会告知这些氨基酸的具体位置或它们之间的确切距离。
能够预测蛋白质三维结构的AlphaFold 2在三年后到来。2021年7月15日,DeepMind的Hassabis和Jumper在《Nature》杂志上发表论文,宣布AlphaFold 2的诞生和开源。
「科学研究的游戏已经改变了。」当通过AlphaFold 2预测的蛋白质结构与科学家之前通过实验揭示的结果几乎一致(约90%)时,《科学》杂志评论说,人工智能技术让人类无需实验即可了解蛋白质结构。
AlphaFold 2论文发表的同一天,David Baker及其博士生Baek Min-kyung博士在《Science》发表论文,宣布RoseTTAFold模型的发布,它是比Rosetta更为先进的模型,与AlphaFold系列模型各有优劣。
Baker曾在一次采访中承认,Alphafold 2的预测结果更准确。不过,比利时根特大学的Sabbath Sabides教授对《科学》杂志称,Baker的RoseTTAFold模型「更好地捕捉了蛋白质结构的核心和特征」—— 它不仅可以预测单个蛋白质的三维结构,还可以预测几种蛋白质的结合形式。
AlphaFold 2的局限之一是它无法预测在真实世界中两个可以相互作用的蛋白的相互作用能力。不过今年5月9日发布的AlphaFold 3解决了这个问题。
从头设计蛋白质的大生意
Baker的创造力不止在蛋白质预测模型上,此外,他还开启了「从头设计」蛋白质的浪潮。
既然蛋白质的氨基酸序列决定蛋白质结构、蛋白质结构决定蛋白质功能,那是否可以反过来根据蛋白质药物需要的结构推导出其氨基酸序列呢?这种倒过来根据目标结构设计蛋白质的工作被称作「从头设计」(De novo design)。
2003年,Baker团队的Brian Kuhlman和Gautam Dantas就设计过一个含有93个氨基酸残基的α/β蛋白,它具有全新的拓扑结构,能够自动折叠成球状并保持稳定。这个蛋白被命名为「Top7」,是人类第一个非自然界来源的全新蛋白质。
「Top7」并没有任何功能,不过2024年6月,Baker团队就设计出了真正具有功能的全新蛋白质——一种环形蛋白,它能调控成纤维细胞生长因子(FGF)信号通路并促进血管分化(血管分化是指血管前体细胞发育成成熟的血管细胞的过程)。
目前,Baker仅作为联合创始人或科学联合创始人创立合成生物学公司——将蛋白质设计与人工智能结合的公司就有长长一串,包括Arzeda、Cyrus Biotechnology、Icosavax、Neoleukin Therapeutics、CHARM Therapeutics、Xaira Therapeutics。这些公司的核心业务要么是开发蛋白质设计软件,要么基于人工智能技术直接设计和合成新的药物。
去年12月,阿斯利康宣布收购了其中的Icosavax,这家公司2017年成立,利用其计算设计平台开发针对传染病的疫苗。今年4月,生物医药领域金额最高的一笔资金——10亿美元,所投向的公司Xaira Therapeutics也是Baker参与创立的。Xaira Therapeutics是一家AI制药公司,2023年才成立,目标是通过生成式AI等技术设计新的蛋白分子,特别是抗体分子。
DeepMind也在推进AI制药的商业化。DeepMind已于2021年成立药物发现公司Isomorphic(「同构」,意思是信息系统和生物系统可能具有共同结构),今年1月8日,Isomorphic Labs宣布已与制药巨头礼来和诺华达成战略合作,将应用AI来发现治疗疾病的新药。