导读
本周,诺贝尔化学奖授予蛋白设计和蛋白结构预测方面的三位专家,AlphaFold得到了科学领域最崇高的荣誉。
AI精准预测蛋白质结构,结构生物学学家如何走好下一步,今年前知名学者颜宁就在讨论这个问题。
2020年12月1日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智能系统在国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手,精确预测了蛋白质的三维结构,准确性可与冷冻电子显微镜(cryo-EM)、核磁共振或 X 射线晶体学等实验技术相媲美。这一消息引发了全球媒体关注,前Genentech首席执行官Arthur D. Levinson博士盛赞这一成就是“划时代的进步”。
人工智能的“进击”对生物学、对其他学科会有什么影响?网络上有人提出:AI都能解蛋白质结构了,结构生物学家是不是该失业了?结构生物学家颜宁特邀几位同仁对这一新闻各抒己见, 回答大家的疑问。
龚海鹏、龚新奇、李赛、王宏伟、颜宁、张鹏、张阳、周强 | 撰文
01
AlphaFold2是个大突破,但我们还有努力的方向
张阳
(ITASSER创造者,美国密歇根大学教授)
AlphaFold2显然是个大突破,这是从1969年第一篇Journal of Molecular Biology论文用比较建模方法预测蛋白质结构的51年来的真正突破。
最近四年来,有共同进化预测contact map(氨基酸接触图谱),并引入深度学习之后,原来的ITASSER/Rosetta/RaptorX等算法都有了很大进步,比原来提升了计算精度一倍以上,只不过AlphaFold2进步更多,说他们接近解决了这个问题没错。
谷歌公司拥有强大的资源,他们用TPU,我们用GPU,而很多实验室还没有GPU。他们原来在宣传中说只用100个GPU训练了两周,这是不客观的。因为训练稳定的模型,起码要重复100次甚至1000次,就像饿汉一样,不能说最后一个馒头才有作用,前面那么多的尝试都有作用。这是学术界与产业界最大的差别。
当然,他们不训练contact map,直接训练结构中的原子坐标,这是新的想法,以前没人成功过。
我很高兴他们取得了突破,因为证明了蛋白质结构预测问题是可以解决的,我在15年前的PNAS论文上提出,用PDB库中的模板在理论上可以解决这个问题,他们这次用暴力实现了。
但基于商业或其它考虑,他们还不会公开代码或server,所以要依靠我们科学界来做出让公众受益的方法。这次只有2/3的题目可以做到实验精度,还有1/3做不到,是否还有更快更好的途径来产生更高精度结构的算法?这是值得我们努力的方向。
02
共赢大于竞争
龚新奇
(中国人民大学数学科学研究院教授,清华大学北京结构生物学高精尖中心合作研究员)
2020年第14届国际蛋白质结构预测竞赛(CASP14)共有84个常规(Regular)题目,其中有14个题目因为生物实验没给出确定结构等原因被取消或延缓,其他70个题目的单体和复合物蛋白质所含有的氨基酸个数从73到2180不等。
19个国家的215个小组参加了CASP14。最终,谷歌旗下DeepMind公司的人工智能系统AlphaFold2在2018年的Alphafold基础上迭代创新,超常发挥,一枝独秀,基本解决了“从氨基酸序列预测蛋白质结构”这个困扰人类50年的生物学第二遗传密码问题。
AlphaFold2的成功表现在三个方面:
不少结构的预测精确度跟实验晶体结构相当,可以替代晶体结构;
一些含有多个结构域的复杂超长的单链结构也达到了可以跟实验结构比较的程度;
帮助解析了竞赛中涉及到的、实验多年没拿到的X射线晶体和cryo-EM冷冻电镜结构,比如T1058的膜蛋白是用了Alphafold2的预测模型之后,才跟原有晶体学数据综合成功解析了结构。
AlphaFold2团队的John Jumper报告表明,他们使用了基于注意机制的神经网络,动态调整网络中节点的顺序和链接;依靠的是端到端的优化整体构建结构,而不是氨基酸距离;网络中内置了大量的序列、结构和宏基因组等多重比较信息;还依赖分子模拟软件优化去掉了原子的堆积碰撞。
在AlphaFold2的摘要作者名单里,交叉团队的30位作者中有19位都被标记为相同贡献的第一作者。他们将近8分钟的宣介视频,记录了团队成员在新冠疫情期间精诚合作、攻坚克难的宝贵场景。
CASP组织者John Moult指出,计算下一步还有更困难的问题要解决:超大复合物结构、动态构象变化、蛋白质设计、药物设计等等。
除了我们蛋白质结构预测小同行对AlphaFold2的成功很欣喜之外,社会上还有多个不同方向的学术界、产业界和新闻界对它寄予了厚望。
在欣喜的同时,蛋白质结构预测小同行也有一些保留意见:
工程化明显,依赖于强大的GPU计算资源和代码优化团队;
谷歌公司几乎可以收集全球所有网络信息,虽然看起来AlphaFold2的自动化程度很高,但他们在人工操作中使用了哪些信息值得关注;
预测对了结构,但不等于明白了蛋白质折叠过程和原理。
生物实验科学家也有不少看法:
算出结构只是生物学规律发现的第一步;
计算的多个models中,有时打分排序不准;
开放AlphaFold2的server之后,使用效果不一定那么好;
只是在已有蛋白质结构数据集上训练得到的模型,尚不能计算其它构象或其它类别的分子结构。
还有关心这个领域的其他方向的专家也提出了问题:怎么理解这个算法成功的原理?怎么跟原有的热力学、物理学等基本原理相融相通?
我认为AlphaFold2是个大突破,后续可能性很多,会替代一些简单的结构生物学实验,但对当下科学家追求的前沿生物学来说,共赢大于竞争;对生物学、数学和计算机学等学科而言,则会带来新的机遇。
03
技术服务于科学探索,结构生物学早就进入新时代
颜宁
(深圳医学科学院、美国科学院外籍院士)
首先,简单说一下,什么是生物学里的“结构”。用个不太恰当的类比:变形金刚。比如擎天柱是辆车还是个机器人,这就是不同的结构了,机器人能打架大车做运输,功能也不一样。而不同的汽车人组成成分可能差不多,都有合金、玻璃、橡胶,但是形态各异,特长也不一样。生物分子的组成成分和基本单元就那么几种,但是组装起来,不同的序列不同的结构,于是功能各异、五花八门。这个结构不是静止的,每一个生物大分子基本都像个小机器,比变形金刚更复杂、更变化多端。
因为结构决定了生物大分子的功能,所以解析高分辨率结构在过去几十年一直是理解生物大分子工作机理最有力的工具。但是一直以来,因为技术局限,对于绝大多数生物大分子的结构解析困难重重。所以,一批科学家另辟蹊径,试图在已有的知识基础上,绕开劳心劳力又劳财的实验步骤,从蛋白质的序列直接通过计算预测出它们精准的三维结构。
蛋白结构预测并不是一个新鲜学科,一直以来就是结构生物学的一个分支,很多科学家不断开发算法,希望根据序列预测出来的结构越来越准确。这个领域在过去十几年进步迅速,并且与实验结构生物学融合度越来越高。比如,自从进入电镜时代,看到一堆黑白灰的密度,如果其中某些部分没有同源结构,通过软件预测一个大致的结构模型,放到密度图里面做框架,再根据实验数据调整,已经是个常规操作。
这次人工智能赢得CASP的新闻亮点有两个,一是AI,二是准确度高。这确实是突破,但是有了两年前的新闻(注:2018年,DeepMind开发的第一代AlphaFold首次参加CASP并且拔得头筹)做铺垫,现在这次委实是意料之中。
至于衍生出来的所谓“结构生物学家都要失业了”的调侃——如果你对结构生物学的理解还停留在20年前,那这么说也不是不行。但是结构生物学自身一直在发展着,一场冷冻电镜的分辨率革命更是令结构生物学不同往日了。我在2015年主持一个学术研讨会的时候曾经评论过:结构生物学的主语是生物学,是理解生命、是做出生物学发现。但是,在X-射线晶体学为主要手段的时代,获得大多数研究对象的结构本身太难了,于是很多研究者把“获得结构”本身作为了目标,让外行误以为结构生物学就是解结构。但我从进入这个领域之初,就被教育得明明白白:结构本身只是手段,它们是为了回答问题、做出发现。而电镜使得“发现”二字尤为突出。
看到结构本身、知道你的研究对象长啥样,倒也可以称之为发现,但我刚刚说的“发现”,特指那些超乎想象的、通过结构才揭示出来的、自然界里神奇的存在或者令人叹为观止的机理。我讲课最喜欢举的例子之一就是施一公组的剪接体结构。为啥呢?因为它集合了结构生物学发现里几乎所有的精彩要素和挑战。
第一,在剪接体结构出来之前,有很多剪接体的组分甚至是未知的。不同于传统的结构生物学,先知道你要研究对象是啥,再吭哧吭哧地去把它们的结构解出来——剪接体的电镜分析是看到了密度图之后,完全不晓得这是啥,需要通过质谱等手段去鉴定组分。我从2015年就预测:电镜与质谱组合,将会变成一个重要的生物学研究发现手段。在电镜时代,这样的例子越来越多。比如清华大学隋森芳老师组的那个巨大的藻胆体结构,靠质谱都不够了。为了搞明白组分,他们甚至先做了基因组测序。
第二,几十上百个蛋白如何众星捧月地把那么几条貌似简单的RNA掰成与几个小小的金属离子配合的核酶反应中心,在茫茫碱基中,在正确的时间正确的地点牵线搭桥,剪掉intron(内含子),连接exon(外显子)?就为了这一“剪子”一“钩针”,为了几毫秒的过程,这么个庞然大物的几十上百个组成部件却要分分合合,这个过程是真神奇。
施一公实验室报道的首个酵母剪接体的结构
(图源:生物化学经典教材Lehninger Principles of Biochemistry(第七版)封面)
结构生物学目前的实验手段只能获得静止的3D照片,为了揭示这部电影,就要不断获得中间态的3D照片,帧数越多,电影越精准。但即便如此,这个过程中的动力学问题,简单说,就是变化速度,依旧不是现在的结构生物学实验手段可以揭示的,需要借助更多生物物理技术、计算生物学手段去探索。
我自己的工作虽然没有剪接体那么酷炫,但是电压门控钠离子通道如何感受膜电势的变化,开门关门,就这么个过程,听着简单,我们死磕三年了,依旧束手无策。另外,我们今年发的两篇PNAS论文其实代表了结构生物学的另一个努力方向:在实验操作过程中对生物大分子施加外力(电场、磁场、各种长度的波......)。
也许是受到我自身专业领域的局限,AlphaFold迄今带给我的震撼还赶不上冷冻电镜的革命,后者将我们从技术挣扎中解放出来,可以专注于结构带来的生物学发现本身。
AlphaFold目前最成功的预测是针对单链分子,当然将来预测复合物的高精结构也应该不在话下。相比于对蛋白折叠的贡献,我倒是更希望AI能够助力Molecular Dynamics Simulation(分子动力学模拟)。对结构生物学而言,这个领域才是亟需进步的。
我个人认为生命是地球上最神奇的存在,那么多未知要探索,任何一次技术进步都是契机。该考虑的是如何把新技术为我所用,去问出、去探索更有意思的问题。
最后,当AI能够成功预测我们正在孜孜以求的生物大分子动态、原位高分辨率结构的时候,那失业的一定不止是结构生物学家、或者生物学家了 :p
04
各抒己见
根据现在披露的结果,AlphaFold2已经基本达到实验解析结构的精度。前天AlphaFold2团队的报告展示了新冠病毒SARS-COV-2的预测结果,说明RNA聚合酶这么大的蛋白也能基本预测准确。理论上,这会对结构生物学有很大冲击,尤其是以后单颗粒cryo-EM的实验方法上,是否还需要把分辨率做得那么高?低分辨率的电子密度图,甚至SAXS数据结合预测结果应该就能解决问题了。
但是,现实中的冲击不会那么大。这是因为,AlphaFold2模型的创新性非常高,其中结合的2D transformer和3D equivariant transformer都是AI领域的前沿技术,模型的训练难度很大。DeepMind的训练方法在学术界很难复现,估计学术界要花几年的时间才能跟上,因此短期内AlphaFold2对结构生物学的影响会比较有限。DeepMind可能会和个别实验室合作,预测蛋白质结构。
——龚海鹏(计算生物学家,清华大学结构生物学高精尖创新中心研究员)
AlphaFold为结构生物学家提供了除晶体学、冷冻电镜、NMR以外的另外一种手段,用于揭示生物大分子发挥作用的分子机制。
——张鹏(结构生物学家,主要利用晶体学和冷冻电镜技术;中科院分子植物科学卓越创新中心研究员)
AlphaFold目前还不能预测复杂的分子机器,主要是因为蛋白-蛋白相互作用非常复杂,存在极多的可能性。实验手段所揭示出来的蛋白-蛋白相互作用方式还只是冰山一角,更何况在不同生理条件和过程中的结构变化。因此,未来对有特定功能的、多个成分组成的、生物大分子复合体的结构解析,以及体内的结构分析,将成为结构生物学实验研究的主要内容。无论有没有AlphaFold,结构生物学也正在朝这个方向发展。
Rosetta(注:从头蛋白结构建模算法)也好,AI也罢,结构预测都是基于已有的实验数据够大。没有足够的数据积累,这些基于统计和数据库的预测就无法实现。完全基于物理学和化学第一性原理的结构预测还没有出现。
实验科学永远是探索未知的必要手段。新的软件算法应该是成为实验科学家的更有力工具,而不是取代实验科学。
——王宏伟(cryo-EM专家,清华大学结构生物学高精尖创新中心执行主任,清华大学生命科学学院院长)
最近两年,结构生物学领域经历了与围棋界类似的故事。Alphago Fan版本时围棋界并不认为它能够战胜人类顶尖高手,可是Alphago Lee后整个围棋界甘拜下风,并且转向AI拜师学艺。2018年Alphafold出现时,实验结构生物学领域认为被战胜的仅仅是传统的结构预测领域,2020年Alphafold2之后,实验结构生物学领域应该开始思考如何与之共存以及如何“拜师学艺”了。目前阶段人工智能在围棋上已经远远超过人类顶尖棋手,但是人类围棋比赛并未因此取消,如同汽车发明后奥林匹克仍然在进行田径比赛一样。原因之一是人工智能虽然超越了人类,但并未解决围棋的最终解。同样的道理,对于复杂的结构生物学问题,预测手段本身还不能号称完全解决了问题。实验结构生物学领域接下来需要做的一个事情是要拥抱变化,更好地与预测方法结合以及共同发展。
——周强(cryo-EM专家,西湖大学生命科学学院特聘研究员)
蛋白质体系越大,结构的解析越难仅依赖计算方法。Cryo-ET (冷冻电镜断层成像) 技术擅长解析体外难表达的大分子机器结构、细胞中的原位蛋白结构等复杂体系,因此很难被脱离实验手段的方法取代。目前,由于体系过于复杂,使用分子动力学模拟整颗病毒尚未实现,要模拟细菌、细胞、组织,还要很长的路要走。
——李赛(Cryo-ET专家,清华大学结构生物学高精尖创新中心研究员)
注。本文来自“返朴”,略有改动。