科研,期待“AI爱因斯坦”提出好问题

图片
东方IC
“提出一个问题往往比解决一个问题更重要。”爱因斯坦百年前的话语,在如今这个“答案太多,而问题太少”的AI时代正获得更多共鸣:越来越多科学家认为,“更好提问”是人类面对AI的最好办法。
不过,具备超强推理能力的OpenAI o1大模型的问世,让科学家开始期待AI能够提出一个好问题。日前举行的第23届浦江学科交叉论坛上,专家们表示,随着科学研究“第五范式”AI for Science(AI4S)的到来,“AI爱因斯坦”有望提出有价值的科学问题,并拥有理解复杂世界、探索未知规律的能力。
靶点枯竭了吗
靶点是药物研发的源泉,一个新靶点的出现,往往会带来一系列重磅炸弹式的药物。
目前,全世界新药研发面临的共同难题是靶点枯竭。华东师范大学药学院院长、人工智能新药创智中心主任李洪林表示,人体有不到三万个基因,数百年的研究产出了数百万篇研究论文,共获得了近900个靶点、1600多个常用治疗药物。
科学家曾预言2003年人类基因组计划完成后,所有疾病相关靶点都将一网打尽,但事实并非如此。由于靶点有限,热门赛道不可避免出现了“卷靶点”。比如肿瘤靶向治疗领域,“挤”满了250个临床候选药物,肿瘤免疫治疗赛道则有130多个药物在研。
AI视角下,人类基因还有海量的“未解之谜”。李洪林表示,现阶段只有3%的基因被确认为“成药性靶点”,55%的基因仅有生物学机制研究,35%的基因仍为“黑暗基因”,即人类尚未发现它们具有明显功能。
未知即“蓝海”。正如羟甲基戊二酰辅酶A还原酶靶点开启了他汀类降胆固醇药物时代,1996年上市的立普妥至今仍保持着百亿美元的年销售额,科学家期待“第五范式”下的新药研发能够开创一个个新的“蓝海时代”。
推理克服“幻觉”
GPT的出现曾掀起过一阵AI4S的讨论,但是大语言模型有天生短板,比如“幻觉”问题。“这是因为大语言模型本质上是概率预测,并不产生新知识,投喂的数据越多反而会强化它们对某一类问题的刻板印象。”复旦大学人工智能创新与产业研究院副院长、上海科学智能研究院院长助理程远说。
传统科学研究中,人们总是依靠“问题—实验—数据”来获得新发现,这个过程极其依靠专家的经验,有时甚至是“灵光一现”。未来“第五范式”下的科学研究,可形成“AI科研助手+AI操作机器人+智能实验环境+可信多方协作”的高效迭代。
如何打造一个垂类科学大模型?程远表示,垂类科学大模型有两个特点:一是数据量少,特定领域只有几千、几万条数据;二是迁移性差,在训练集、测试集上表现好的数据,在实际项目中往往表现很差。因此,垂类科学大模型需要由高质量的科学数据、科学实施方法和科学机理一同打造,缺一不可。
基于这样的理念,上海科学智能研究院打造了“燧人”物质世界大模型——将实验数据、合成数据以及量子力学、分子动力学、统计热力学等物理机理都投入模型进行预训练。“当数据和机理矛盾时,拥有推理能力的科学大模型有能力调整对数据的认知,然后它能从牛顿力学走到爱因斯坦相对论。”程远说。
科学家与AI共创
不可否认,科研已成为AI的下一个“主战场”。一份对全球44家顶尖药企AI辅助药研行动的调查显示,近十年来,药企使用AI技术服务行动次数显著增长,41家药企与AI初创公司有合作关系,7家药企与高校展开了合作,诺华、阿斯利康、杨森、辉瑞、葛兰素史克、默克、拜耳等跨国药企在AI药研上行动最积极。
程远所在的上海科学智能研究院,目前已经拥有“伏羲”“女娲”等垂类科学大模型。其中,“伏羲”是全球气象大模型,也是首个全球次季节预测大模型,可提供全球未来15天逐小时预测以及未来60天逐日预测。
“女娲”医药大模型包括DNA大模型和动态蛋白质大模型。其中,DNA大模型以全球最长序列、最细粒度的基因调控关系理解促进生物机制的发现,将应用于药物靶点发现。“女娲”在多个预测指标上的正确率超过了DeepMind的高精度基因表达预测模型Enformer。
根据《2023AI4S全球发展观察与展望》报告,未来几年科研相关领域都将会完成2.0阶段的算法升级,而后将逐渐进入到智能化设计的3.0阶段,最终实现AI4S广泛普及。“AI触发了科研范式转型的突破点。”程远表示,科学家应该了解AI语言,把科学问题转化为可计算的问题。未来,科学家将与“AI爱因斯坦”一起,共同推动创新成果的产生。
  作者:沈湫莎
文:沈湫莎图:东方IC编辑:范菁
转载此文请注明出处。