近年来,大模型的热潮已经扩展到自然语言和图片生成之外的更多领域,其中生命科学大模型毫无疑问以其高技术门槛和高应用价值,成为市场关注的焦点,科学界和产业界对大模型在药物研发、生物制造、医疗健康等问题上的赋能抱有很高期望。
作为全球生命科学基础大模型的先行者,BioMap百图生科在10月27日举办的第三届中国生物计算大会上,正式发布了全新一代生命科学基础大模型——xTrimo V3,为行业交上一份全新的答卷。
据悉,该模型在V2大模型突破千亿参数、理解蛋白质语言的基础上,进一步扩展到2100亿参数,覆盖蛋白质、DNA、RNA等七大生命科学主流模态,能够建模更加广泛的基因组学、细胞、系统等问题,为基因编辑、靶点发现、细胞调控、菌株改造、生命科学图像分析等场景带来新的能力。
xTrimo V3前传:四年磨一剑,剑成龙光寒
作为全球最早专注于生命科学基础大模型的平台公司,自2020年成立以来,百图生科始终致力于在这一高难度技术平台上取得突破 —— 生命科学基础大模型并非自然语言大模型 + 生物学文本的垂直应用、垂直“大模型”,而是需要围绕生命科学的氨基酸、碱基等高复杂序列数据,开发一套与自然语言基础大模型理念相近,但技术完全不同的基础大模型底层技术,从Transformer到训练框架,再到更关键的数据集与验证闭环,都与自然语言大模型截然不同、更加挑战、更加前沿。
如何与生命科学多样化具体任务结合,如何理解和对齐复杂的生命科学组学数据,如何理解生命科学规律并建立基础图谱,如何建立生命科学行业原有数据规模百倍以上的超大规模数据集 —— 这些都是过去四年间,生命科学基础大模型先行者们所面对的挑战。
2022年和2023年,百图生科先后发布xTrimo V1、V2,实现了世界首个千亿参数的生命科学基础大模型——利用海量蛋白质序列数据训练的千亿参数蛋白大模型,参数量较第二名高8倍以上,在数十个任务上超越行业达到SOTA水平,特别是支撑蛋白质结构预测等关键问题达到前所未有的准确度和性能,实现了大量的商业和技术突破;利用海量单细胞组学数据实现的单细胞大模型,初步验证了多维度、跨模态的技术,为跨模态建模复杂生命体打下了坚实的基础,并支撑十余个靶点发现、细胞分类等任务取得SOTA成绩。相关工作多次登上Nature子刊封面和学术顶会。
xTrimo基础大模型平台上,目前已有200余个任务模型取得评测SOTA水平,在药物研发中涉及通用蛋白、多种构型的抗体、细胞疗法、基因疗法等多个领域,以及靶点发现、工艺优化、合成生物学、生物制造、生命科学工具等多样的方向。基础大模型的贡献,并不在于能以一个单一技术,一己之力解决前沿问题,而是在面对多样化、缺乏数据的前沿问题、缺乏泛化能力的现有模型时,能够利用千亿参数和万亿数据中蕴含的知识,进行embedding赋能,为难解之题带来一些来源于十亿年生物进化树上的高维信息。
百图生科打造的200余个AI模型,已先后助力开发了20余种前沿抗体和酶、实现了10余个创新靶点的挖掘,并都经过了实验验证,推进进入临床前研发等后续阶段。AI模型驱动的高通量自动化流程,覆盖从分子生成、实验验证、闭环迭代的完整链路,大幅提高合作客户的研发效率,缩短研发周期。
截止目前,百图生科服务全球300余家用户,其中包括跨国药企、大型CRO、明星创业公司、国内外研究机构,签署了超过20亿美元的总潜在订单,共同在生命科学领域实现了一系列突破。
xTrimo V3:模态全家桶,生命科学新问题的探索利器
此次发布的基础大模型xTrimo V3,覆盖DNA、RNA、蛋白质、细胞、小分子、生物视觉和生物知识文本等生命科学7个主流模态,并在各个原有模态上依靠新的数据、新的架构,做了显著的增强。“这一版本一举实现了全模态的覆盖,从而能支撑快速发展的生命科学新领域新问题探索需求。”百图生科技术副总裁张晓明介绍,“与V2平台相比,V3不仅巩固了之前在蛋白质领域的基础和继续了在细胞领域的发展,还拓展至基因组学、转录组学、细胞复杂任务、影像分析和文本分析等领域,支持从分子早期研发到生产放大再到后期实验分析的全流程AI建模需求。”
据悉,xTrimo V3参数量突破2100亿,继续保持全球规模最大的全模态生命科学大模型的领先地位。特别是在蛋白质大模型领域,成为全球首个引入先进专家混合(MOE)架构的生命科学大模型,参数量达到千亿级规模;DNA大模型序列长度跃升至128K,实现超长序列解码生命,这些升级充分体现了百图生科在生命科学基础大模型领域的持续创新。
如何用好基础大模型?是否只有又懂生物又懂AI的前沿团队才能得到大模型赋能?百图生科在内部应用大模型平台实现高效建模后,一直在探索更强的工具链和产品化能力。2023年 3月,百图生科发布了基于xTrimo驱动的 AIGP(AI Generated Protein) 平台。这个被业界誉为“能生成蛋白质的ChatGPT”,为生命科学领域的研究者提供了一个便捷的交互窗口,即使是不具备编程能力的科研人员也可利用大模型和数十个蛋白质相关任务模型、配套软硬件系统,开展创新蛋白设计研究。
此次xTrimo V3平台还发布了专为生命科学AI模型设计的模型工具链 — 包含面向多种数据场景和用户需求的Model Builder模块,支持模型管理和组装的Model Hub模块,以及加速模型调用和物理计算的Model Booster模块等。
“基于xTrimo平台构建专属任务模型,让大模型能力与企业的私有数据、特定需求相结合,快速为企业打造专属的AI工具,是V3平台的重要特征之一。”张晓明介绍,“我们还结合已有模型与模型定制能力,在不同行业提出了药物研发解决方案、生物制造解决方案和AI4LS平台解决方案,通过AI模型和配套的服务,帮助企业加速创新,提升研发效率、优化流程,让企业能够更快地从实验室走向市场,直观感受到大模型作为直接生产力的巨大效能,推动行业的全面智能化发展。”