“将自己重新养育一遍”,是近年来社交媒体上热议的焦点话题。“我是谁?我从哪里来?我要到哪里去?”是人类自古希腊起就不断追寻的哲学命题。纵向来看,人类对于“内在宇宙”的探索,亘古不变。它不仅仅是哲学思辨,也是生命科学所追寻的终极问题。蛋白质结构预测与设计,更是其中绕不开的关键因素。
2024年的最后一个月,我们隔着太平洋,和远在美国出差的许锦波教授谈论生命的奥义。在年终总结的节点,听这位“AI蛋白质折叠奠基人”缓缓说起他的团队与蛋白质结构预测和设计之间“你来我往,高手过招”般的精彩故事,人类对生命科学的撬动历程,宛若一帧帧电影画面,在我们眼前徐徐拉开帷幕。
卡了60年的问题,解决了!
作为一切生命活动的基础物质,蛋白质在日常生活中也很常见,但大多数人对于蛋白质的功能、价值不甚了解。我们和许锦波的谈话,便是从一场关于蛋白质的科普开始。
许锦波有过在大学任教的经历,极擅长运用类比,循循善诱地解释一些抽象的概念。他将生命体比作城市,DNA好比城市的设计蓝图,而蛋白质是城市建设的基础材料、城市运行的基本单位,“蛋白质可以是支撑高楼大厦结构的木材钢筋、传递信息的光纤电缆,也可以是美化环境的草木植被……”以此说明,蛋白质的功能和作用,取决于它的折叠结构。
他也会将蛋白质的基本组成单位——氨基酸,比作磁力珠;将由氨基酸构成的蛋白质折叠结构比作“磁力珠堆”。“当氨基酸以不同种类、数量、结构,进行排列组合时,我们就会得‘长条的’、‘圆锥的’、‘球形的’形状各异的蛋白质结构。相应地,蛋白质的功能也会随着不同的结构发生改变。”许锦波深入浅出的阐述,也让我们沉浸式地上了一堂有趣的生命科学大师课。
从氨基酸到蛋白质(模拟)
所以,如果能够看清、测清蛋白质的三维结构,就如同拿到了破解生命奥秘的“密码本”,这对于推动整个人类科学的发展都有重大意义,也是许锦波从2001年起就投身的研究。
当时,学界对于蛋白质结构的研究已有四十余年,但是一直难有大的突破。彼时许锦波在加拿大滑铁卢大学的博导、算法和现代信息论的顶级专家李明教授,也未曾涉足这一课题。许锦波刚刚从计算机科学系转至计算生物学,对生物知识的了解还停留在高中水平。但当李明教授问道:“有一个很难的问题,研究蛋白质折叠,想不想做?”许锦波没有犹豫,一口答应。
谈及当初的选择,许锦波坦言,本意是好奇,“自己能不能把这个问题的边界,向前推进一点点。”实则自己也卯足了劲,“我们选择研究课题的时候,通常要选择一些比较重要和困难的问题,如果问题不重要,就没必要花时间研究;如果问题不难,几年之内就被别人做出来,也没有多大意义。”
正是秉承着“坚持做困难且重要的事情”的信念,许锦波深入蛋白质结构研究领域,并锲而不舍地进行了15年的探索后,终于石破天惊。在2016年的全球蛋白质结构预测比赛(CASP)中,他的RaptorX-Contact方法,一举把预测分从此前徘徊多年的30分左右,拔高到了60分,证明AI可以大幅提升蛋白质结构预测精度,震惊了在场所有人。
近三十年来连续十四届CASP的成果进展,图片来自CASP联合创始人、马里兰大学的John Moult教授。图中,在难度最高的任务上,RaptorX-Contact方法,让过去十几届中使用传统方法一直没有太大进展的成绩,实现了质的飞跃
至此,蛋白质三维结构在人类面前,揭开了神秘的面纱。人类在蛋白质结构预测这一有六十多年历史的世界难题上,做出了实质性的进展。
蛋白质也能“捏脸”了?
许锦波不仅在AI蛋白质结构预测上取得了从“0到1”的原创研究成果,他所发明的RaptorX-Contact方法还启发了谷歌旗下DeepMind推出AlphaFold。甚至“2024年诺贝尔化学奖”得主之一的戴密斯·哈萨比斯(Demis Hassabis)和约翰·朱默帕(John Jumper)所发表的关于AlphaFold的论文《基于深度学习的改进的蛋白质结构预测》《使用AlphaFold进行的精准蛋白质结构预测》,以及朱默帕的博士论文,也都引用了许锦波的多篇论文。
国际计算生物学会会士、原斯坦福人工智能实验室(Stanford AI Lab)教授塞拉菲姆-巴佐格洛(Serafim Batzoglou)更是公开发文表示,许锦波第一个开发出(精准预测蛋白结构)的深度学习算法,这一算法后来被复现和增强到最初版本的AlphaFold中,他应与哈萨比斯一起获得诺奖。
塞拉菲姆-巴佐格洛在社交媒体上发文表示,许锦波应该共享诺奖
但许锦波将这些成绩看得很淡。从业至今,许锦波的遗憾在于“没有更早地去了解产业需求” 。如果可以重来,他希望将这个“开启”时间,提前到刚刚涉足蛋白质研究的读博时期。“只有真实地了解产业,才能够更好地驱动技术的发展,否则就有些闭门造车。”他以这样的维度思考,也不轻易界定自己的“成功”,只是谦虚地认为“没有特别可骄傲的地方,如果有的话,就是在学术研究上略微做了一点贡献”。
深耕行业24年,许锦波经历过研究经费不足、CASP会场不足两百人的“清冷”时刻,也经历过业内外的科技、资本巨头竞相押注“AI for Science”的风口热潮。面对行业的快速发展,他认同“当下的确是一个好时代”。但他也会理性看待,并表示:“进入到这个领域的人越来越多,某种程度上也能说明这个方向有前途,做的人越多,产出肯定也越多,产生重大发现的可能性也越高。科学发现具有偶然性,也许一个巧思,就能撬动一个行业。”许锦波总是高一维度地看待问题,在推动行业进步的同时,他更想将技术运用于产业,更切实地解决实际问题,因此他将视野转向应用空间更大的AI蛋白质优化设计方向。
如果说“AI蛋白质结构预测”是“放大镜和透视镜”—— 帮助人们快速“看清”蛋白质的结构和功能;那么“AI蛋白质设计”就堪比“捏脸”——它不仅可以对自然界中已经存在蛋白质进行调整改造,甚至还可以设计出一些自然界中从未存在过的蛋白质,这些人造蛋白质将会在医药、环保、材料、食品、农业等众多领域发挥重要作用。
例如,在药物研发领域,如果能够设计出新颖的蛋白药物,如蛋白疫苗、抗体药等等,将会有更大的概率解决当前人类遇见的许多疑难杂症;在食品领域,如果能够开发出更多优质安全的替代蛋白食品,就可以丰富人类的营养来源、缓解食品短缺问题;材料领域,可以通过优化蛋白质,开发出易降解且能循环使用的环保生物材料,促进社会可持续发展等。
在诸多应用领域中,许锦波更专注于医药和生物制造。这不仅是出于医学本身对人类生命健康的重要性,更是结合了中国作为制造业大国的背景和需求。从个人到国家,从微观到宏观,许锦波如是理解AI蛋白质设计对人类生产与生活带来的价值与影响。
带着这样的愿景,2021年底许锦波回国,并于次年创办了公司分子之心(MoleculeMind)。
带领“六边形战士”,解决最真实的问题!
筛选分子之心的团队成员,许锦波有三大标准:专业技术过硬、学习能力突出、团队配合度高。“我们在做的事情是交叉学科里比较大的项目,既需要从‘0到1’研究和解决科学问题,也需要将技术落地于产业实践,更需要高效的团队配合。我们很多解决方案都是既需要懂计算、懂AI,也需要懂生物背景。”
团队成员涉及的领域,包括生物、AI、药物和临床等等,是一支兼具AI、生物交叉背景与深厚产业经验的复合型人才团队。团队里80%是研发人员,核心研发团队里九成以上是博士,其中还不乏他从世界各地挖来的“墙角”。团队中的一位专家此前甚至已在业内TOP 5的外企工作了20年,来分子之心是他的第一次跳槽。
为了拓展大家的知识边界,每周三下午,分子之心的伙伴们,还会以组会的形式,轮流当值,向团队介绍时下的热点技术和理念。
分子之心取名的由来也很有意思,许锦波先确定了英文“MoleculeMind”——Molecule意味着公司主要是研究分子,Mind释义为心智,故而“MoleculeMind”的中文名定为分子之心。以分子为名,为分子发声,也是科学家的顶级浪漫了。
在这样积极的科学氛围里,许锦波带领他的“六边形战士”,为分子之心取得了诸多耀眼的成绩。
2021年,分子之心推出了自主研发的全球首个功能完整的AI蛋白优化与设计平台MoleculeOS,填补了世界范围内尚没有功能完整的AI蛋白质设计和优化平台的空白。
在2023世界人工智能大会上,分子之心又推出了全球首个集成序列、结构、功能和进化的产业级AI蛋白质生成大模型——NewOrigin(中文名:达尔文),这也是面向生物经济时代的基础设施级底层大模型。
除了技术上的持续突破,分子之心也将先进的技术应用到生物制造、生物医药等多个产业领域,在大幅降低产品研发时间的同时,还提高了成功率,是名副其实的降本增效。这也是许锦波在对话中反复提及的,“要了解真实且重要的问题,并去解决他们。”这样的例子在分子之心更是不胜枚举。
比如,曾经有一家中国合成生物学的龙头企业抛给分子之心一个“超级产业难题”:他们的一个合成步骤里的关键催化酶优化陷入了瓶颈。
这是一个极具商业价值又涉及行业瓶颈的跨膜蛋白,经过多年的持续优化,已经接近实验方法优化的极限性能。用其他AI方法来优化也很难,它参与的反应过程异常复杂,且是动态反应,AlphaFold等AI工具的功能局限于蛋白质静态结构预测,也不能产生新的蛋白质序列,与真实的需求差异较大,难以满足精准设计蛋白质的需求。
这项优化工作原定2~3年内完成,但分子之心综合运用AI蛋白质技术和量子化学、分子动力学等科学计算方法,实现了蛋白质动态设计,只花了6个月,就设计出了一个活性和特异性更高的新酶。合作方的实验数据显示,相对于野生菌,AI设计的这个酶使菌种产率提高了5倍!
当然,不止降本增效,强大的AI能力甚至可以打造出有市场竞争力的高附加值新产品。
作为全球人工智能和生命科学交叉领域的顶尖华人科学家之一,许锦波如今又是一名海归创业家,拉起这支全是精兵强将的团队,他对分子之心的期待,又是什么?他笑说,自己“野心”不小。
“技术层面,希望AI蛋白质设计真的能做到‘按需设计’。近期的目标是,AI设计出的几十个分子里,能有1-2个达标的。长期目标是,AI每一个设计出来的分子,都能符合定制化要求。产业化方面,希望通过AI蛋白质技术,设计出真正、实用、有用的产品。”而对于“有用”的解读,许锦波解释得十分简单、明了:“对现阶段行业、产业发展有所改善,就是有用。”
如果要用爬山来做比喻,AI蛋白质设计才刚刚到达“山脚下”。要真实了解产业需求,将技术真正落地、解决问题,还有很长一段路要走。许锦波却并不畏惧,团队优势也是他的底气。“我们团队的综合能力非常交叉互补,并且也是在脚踏实地的解决产业中实际的问题,而不是说只开发一些通用算法。”最终,他希望,“我们能打造出中国生物经济时代的基础设施。”
在历史长河中,人类对于生命科学研究范式的持续演变,也是人类在蛋白质结构预测方法论上的深度、广度、方式和效率的演进。尽管这条路很难,我们依然看到了许锦波和团队的热诚与坚持。他们正在以“AI蛋白质设计”为支点,撬动生命科学的进步,在新时代重塑人类文明的价值与发展。既能取得变革性成就,也有改变未来的潜力,这或许是许锦波入选“2024福布斯中国新时代颠覆力创始人评选”的重要原因。
声明:品牌之声相关资讯来自于被采访对象,非福布斯编辑内容。