采访嘉宾自我介绍:
我叫王宗安,2008年到2012年在中科大读的本科,2012年到2020年在美国芝加哥大学深造,直到2020年初完成博士学位。回国之后在深圳的华大生命科学研究院担任工程师。在学校读书的时候,我的研究方向是蛋白质计算,工作之后继续在同一方向研究。
问题一:人工智能如何用来研究蛋白质?这项技术的发展历程是什么?
我们可以从两个方面来探讨,首先是人工智能,其实就是深度学习,属于机器学习的一个分类,其次是蛋白质研究,我们主要限定在蛋白质折叠方向的计算研究,具体来说,即通过计算手段来研究蛋白质折叠之后的最终结构,也就是生物学中很重要的蛋白质折叠问题,即蛋白质结构预测。同时也是今年获得诺贝尔化学奖表彰的一个方向,另一个设计表彰的方向就是蛋白质的计算设计。我本人其实更熟悉第一个方向。
其实用计算方法来解决蛋白质折叠问题的历史发展脉络相当清晰。1994年,由 John Moult 等几位科学家联合创办了蛋白质结构预测关键评估(Critical Assessment of Protein Structure Prediction)这一重要比赛,简称CASP。由学术界牵头,鼓励学术界和工业界开发计算工具,来预测蛋白质折叠的最终结构。这个比赛每两年举办一次,一直到今年,已经走过了整整30年,今年是第16届,下个月月底就可能出现今年比赛的结果了。而整个历程中的里程碑事件也很清楚:
2002年的第五届CASP出现了第一个重大的里程碑事件,首次使用同源模版构建蛋白质折叠结构。
第二个重大的里程碑事件出现在2012年的第10届CASP,同时也可以说从02年到12年这十年间的五届比赛,结果基本上都处于停滞状态,没有明显进步。但其实很多科学在早期的发展都相当缓慢。而到了2012年首次使用了接触图(contact map)来预测结构,取得了一定进展。
紧接着是2014年的第11届CASP,出现了多序列比对(MSA)技术,又过了两年到第12届CASP首次使用了残差网络,也是深度学习/人工智能首次亮相,并且取得了很好的结果。
在2018年第13届CASP上,第一代AlphaFold,也就是original AlphaFold 参与比赛,它所采用的技术路线依然是2016年的技术路线。
到了2020年,出现了第二代AlphaFold,即AlphaFold2,它和AlphaFold1可以说是两种截然不同的技术,第二代的创新性非常强大,所以今年的诺贝尔奖颁奖辞中明确指出,化学奖的一半是颁发给AlphaFold2。因为在不同语境之下,AlphaFold这个词可以指代一代、二代、甚至三代。但诺贝尔化学奖清楚表明是表彰AlphaFold2,AlphaFold2预测了几乎所有的已知蛋白质。
2020年11月30日当天晚上出了比赛结果,12月就相对外公布了AlphaFold,但文章和代码并没有同时公布。相关论文在2021年7月15日发表在《自然》(Nature)期刊上,因为AlphaFold所属的DeepMind公司在英国。也在同一天,大卫·贝克课题组的RoseTTAFold论文发表美国的《科学》(Science)期刊上。又过了一周,7月22日,AlphaFold的DeepMind公司公布了第一批在蛋白质组水平上的结构预测,总共35万个,包含了98.5%人源蛋白组的2万个结构,以及大概20种诸如斑马鱼、大肠杆菌等模式生物的全蛋白组的预测结构。这就是后来AlphaFold数据库的原型,在这个基础上他们的团队持续扩充,最终扩充到了2.14亿个,即全部人类已知的蛋白质序列。所谓的蛋白质序列就是直接通过蛋白质测序得到的序列。
问题二:John M. Jumper是一位怎样的科学家?共事时有什么经历?
我的博士课题的前一半就是他直接指导的,到了后半阶段,他就已经接近要离校了,我的博士研究是在他已有工作、他的博士论文的基础上做了一些延展。但我并不了解他作为一名老师是怎样的。我们学校要求所有人在第一年都要做助教,我当时并不知道他做助教的风格。
但后来几年与他共事之后,我觉得如果有问题,就可以直接问他。他给人的感觉是,如果提问的人很谦虚,是向他虚心求教,他平时就是很谦虚的人,此时他会表现得更加谦虚。但如果提问的人做出一副不屑一顾的态度,因为大家都认为自己很聪明,所以一旦有人抱着自己屈尊俯就的不屑态度去提问,他反而可能表现得很倨傲。实际上Jumper很乐于传授知识,但一般也不会主动跟学生去讨论问题。另一方面,他自己也很忙,绝大多数时间在家工作,照顾刚出生的两个孩子,每天大概来学校一个小时左右,是为了跟其他导师讨论,主要是跟年轻一些的导师交流。我们的导师Karl Freed年长很多,Jumper和我是Karl导师这一辈培养的最后两个博士了。另外一位是年轻的导师Tobin Sosnick,Jumper会和Tobin聊上一个多小时,结束后就离开了。
所以,如果有人有问题,得赶紧抓住他提问,他既不好为人师,另外也很忙,时间很有限。
问题三:毕业之后和Jumper还有联系吗?
很少了。在他获得诺贝尔奖之后我给他发了一封邮件,但我知道估计他的邮箱早已塞满了祝贺邮件,大概过了两周,他回复了邮件。而且我们,包括我们组内的师兄弟,毕业前后的最主要关系是关系很好的同事,不仅是中国人,美国人也是如此。同事之间私下并没有很多交往,在学校的时候,同事或者同组员关系融洽,但不代表私下也会玩到一起。平时科研时大家都很忙碌,也会花更多时间在研究上面,大家都很有边界感。
问题四:在公司和在学校的科研有什么不同?
我在博士毕业之后,在学校以博士后的身份多待了几个月,算作为缓冲期。所以在学校我作为员工的时间很短,作为学生的时间很长。
首先,这个比较可能不是很公平,因为学生有毕业压力,而员工是合同制,所以没有毕业压力。
其次,也有相同点。华大集团总共有一万一千人,而华大研究院是华大全资的一级子公司,主要以科研为主,在华大研究院的两千多人中有80%到90%的研究员,这点跟学校就很像。去年整个华大集团发表了382篇论文,大部分都是华大研究院作为第一作者单位或通讯作者单位发表的。而在CNS上,包括正刊和子刊发表了约30多篇论文。所以,华大在生命科学领域,是全世界所有同类公司中排名前十,根据自然指数(Nature Index),去年华大排名第八,而这前十名的公司中只有两家是非药企,华大便是其中之一,另一家是谷歌的母公司字母表(也是DeepMind的母公司),而剩下的八家都是诸如诺华、罗氏等药企。
而华大从生命科学研究的角度来说跟学校并没有太多差别,如果说有的话,首先可能是压力小,朝九晚六,也不加班。其次学术压力也相对小,在学校无论博后还是学生,学术环境竞争还是比较激烈的。另外,公司有相对丰厚的薪酬。以Jumper为例,他现在在美国即便在哈佛或者芝加哥大学担任化学系讲席教授,可能一年的薪酬约20多万美金,而在DeepMind一年的薪酬可能就高达500万甚至1000万美元,即便如此,这也不算夸张。
另外还有一个区别就是我们不一定要申请基金,尽管公司鼓励研究人员申请国自然、省自然或者市自然以及各类基金,我们每年都要写申请书,如果获得了基金,公司会有额外奖励,但如果没有申请上,也没有损失。
问题五:为什么选择将自己的研究完全开源?
首先在学术界,不是所有课题组会把自己写的软件开源,但我认为开源应该受到学术界鼓励甚至强制。有些课题组发表论文之后,也不想把自己的技术商业化,但处于竞争考虑,他们依然选择不开源。因为一旦开源,使用的团队数量增加,那么日后发表同类论文的难度也会增加,这种现象在芝加哥大学也有,业内非常顶尖的课题组为了规避竞争,会选择不开源。
其次,我们鼓励开源,因为开源之后,别人可以重复你的研究工作,在完全开源之后,你的所有研究都应当能够经得起他人的检验以及复现。
另外,鼓励开源让更多人使用,而且每个课题组的研究重心各不相同,那么他们就能帮助添加一些拓展功能,此外还有助于除漏洞。例如像大卫·贝克课题组发展的Rosetta软件,后来还发展成了Rosetta社区,已经运营超过20年了,全世界数十万人都在使用,其中绝大多数的功能相当于外部第三方用户自己添加的,大家一起来使用,添砖加瓦,共同促进了整个领域的繁荣。
我们还可以看到AlphaFold2的应用实例,它随着论文的发表同时也开源了自己的推理部分,虽然训练部分没开源。但开源了推理部分之后,大家都能使用。在论文发表的短短三年内,引用次数已经超过2.7万次,作为化学领域的论文,这个引用量非常庞大。其中一个原因就是开源之后,大家各种尝试,推动它的边界。就在它开源的最初一两个月,全世界的课题组都在做稀奇古怪的尝试,每个课题组的研究重心、研究方向都不一样,所以都在尝试AlphaFold能不能适合自己的研究体系,或者加一些魔改、或者做一些巧妙的改动。也就说,DeepMind可能自己无法测试到的边界,由全世界数以十万计的第三方用户们来共同测试完成。这也体现在诺贝尔奖的颁奖辞中:AlphaFold2已经被全世界190多个国家和地区,超过100万名科研工作者使用。
现在流行科学民主,Scientifi democracy,或者说科学可及性,科研曲高和寡固然好,但曲高和众更好。但今年五月发布的AlphaFold3却没有开源,因为发表在《自然》期刊上论文都规定要求开源,期刊也因此遭受了不少批评,所以迫于各种外界压力,团队承诺今年年底或明年年初会开源。但我们尚不清楚其开源形式,最值得期待的情况就是如同AlphaFold2一样,可以使用推理模型,而训练模型属于商业机密,很可能不会开源。而次好一些的情况是只开源推理代码,但不开放训练权重,没有参数就得要第三方自己去训练参数,这也是很有可能的,也符合学术规范。目前AlphaFold3论文的引用量只有三五百,这低于同期AlphaFold2的引用量,但实际上第三代更加强大,允许各种分子。引用量的减少可能与不开源相关,应为使用的人数量少了,它只提供了一个在线服务器,使用起来并不方便。而且功能也有所限制,在这样的情况下大家无法测试它的边界,去充分尝试自己感兴趣的课题。
问题六:未来人工智能还可能在哪些领域得到更好的应用?
我的个人感受是和蛋白质相关,和生物体相关的东西很多。但人工智能仍然需要大数据,但凡去折叠这个问题首先就得匹配相当大量的数据,需要积累足够多的结构数据。当年AlphaFold2通过不断积累获得了20万个结构,现在每年增加一万多个结构,从AlphaFold2出来的序列数据已经多达数亿条,已经是一个相当大的数据体量。
另外,蛋白质折叠问题从数学上来说属于定义良好(well defined)的问题,非常适合使用人工智能、深度学习来探索,因为应用数学中一个问题但凡能够良好定义,就适合人工智能去拓展。
问题七:如何评价像Foldit这种通过游戏进行科研的形式?
我在科大读本科的时候就安装过这个游戏,它出现得很早,软件体量很小,但打开玩了几分钟之后就再也没继续了。作为游戏,很可惜,它的可玩性不大,就是不好玩。
其次作为科研工具,它的用处也不大,实验科学家、计算科学家并不会把它真正应用到自己的实验课题中。虽然它的最终目标是蛋白质折叠后的结构,也属于结构预测工具,但可惜并没有应用到科研中。
我个人认为它的价值更多在于新闻和媒体价值。
另外一个是它会利用几十万人同时在线的计算机资源,可能我的认识不一定准确。我记得在安装之后,用户会给游戏一定的许可,即使在电脑休眠状态下,游戏也可以运用个人电脑的计算资源从后台统一来运算。这在计算机资源还比较紧张的当年,通过游戏方式让全民参与蛋白质折叠问题的研究。
问题八:平时如何在学习、工作中保持专注?
我当年在大学读书的时候,智能手机还没有普及,也没有电脑。主要就是对着书本和草稿纸,这样保持专注反而很容易,连走神分心的渠道都没有。
而现在智能手机放在身边,就很容易隔一段时间看一下朋友圈什么的,我觉得大家都是这样的工作状态。对我个人来说,要保持专注取决于工作内容是否重要、是否有趣。如果是的话,那我可能较长一段时间会专心致志地工作,不会去做其他事情,否则我也很难长时间保持工作状态。
另外,要保持精力的话锻炼身体是不错的选项,能精力充沛地投入工作。也可以借助咖啡、茶等外部刺激手段,都有助于保持专注。
问题九:有没有推荐的科普读物?
去年我读了一本关于科学和科学家的文学书籍,我个人觉得很好,书名叫做《当我不再理解世界》,由人民文学出版社翻译出版,智利作家撰写的科学小说,一共有四篇,基于真实的科学家,三个短篇和一个中篇,文风很像茨威格。但我认为要比《人类群星闪耀时》写得还好。
第一个故事的主人公是弗里兹·哈勃,第二个故事写了卡尔史瓦西,第三个故事写了两位数学家:望月新一和格罗滕迪克,最后一篇是三位物理学家:海森堡、德布罗意和薛定谔。
科学家是真实的人物,但故事则根据真实事件经作者演绎而成,不是真事。我感觉他写的这四篇故事是想表明,这些科学家的出发点是为了更深刻地理解我们这个世界,但最终却使得我们的世界变得更加难以理解,这样一段心路历程,写得非常好。
问题十:有什么科研建议和经验分享?
我很惭愧,我觉得本科学习其实没有什么必要的经验,因为本科学习难度并不大,对于中科大的师弟师妹来说都不会有什么问题。
但我科研做得很一般,没有什么特别值得分享的经验。一定要说的话,我觉得选择比努力更重要,对于低年级的同学们,如果将来致力于科研的话,那么请慎重地选择自己的科研方向、科研课题组以及科研学术机构,这比个人纯粹的努力更重要。因为选择之后的差距可能会非常大,科研作为事业的话,已经不再是单纯的一门学科和课程,涉及的还包括学习本身之外的其他问题。
墨子是我国古代著名的思想家、科学家,其思想和成就是我国早期科学萌芽的体现。墨子沙龙的建立,旨在传承、发扬科学传统,倡导、弘扬科学精神,提升公民科学素养,建设崇尚科学的社会氛围。
墨子沙龙面向热爱科学、有探索精神和好奇心的普通公众,通过面对面的公众活动和多样化的新媒体平台,希望让大家了解到当下全球最尖端的科学进展、最先进的科学思想,探寻科学之秘,感受科学之美。
墨子沙龙由中国科学技术大学上海研究院及浦东新区南七量子科技交流中心主办,受到中国科大新创校友基金会、中国科学技术大学教育基金会、浦东新区科学技术协会、中国科学技术协会及浦东新区科技和经济委员会等支持。
关于“墨子沙龙”