1.商汤科技推出“日日新”融合大模型,深度推理能力和多模态信息处理能力大幅提升。
2.该模型在SuperCLUE和OpenCompass两大权威评测榜单均夺得第一,成为“双冠王”。
3.“日日新”融合大模型具有文理兼修的能力,可在多个领域解决复杂问题。
4.为此,商汤科技研发了融合模态数据合成与融合任务增强训练技术,完成模型训练。
5.同时,该模型在视觉交互和语音客服等场景具有丰富应用场景。
以上内容由腾讯混元大模型生成,仅供参考
2025年,大模型会如何“进化”,还有怎样的想象空间?
就在今天,申城人工智能头部企业商汤科技正式推出 “日日新”融合大模型,深度推理能力与多模态信息处理能力均大幅提升,并在SuperCLUE和OpenCompass两大权威评测榜单均夺得第一,成为“双冠王”。
“一个模型、双料冠军”,意味着商汤科技率先在原生融合模态训练取得实质性突破。业内人士分析,这将改变大语言模型和多模态大模型分立的普遍现状,走向真正意义的模型一统。
文理兼修 能写能看能推理
商汤“日日新”融合大模型性能上文理兼修,在国内权威大模型测评机构SuperCLUE年度评测中,文科成绩以81.8分位列全球第一,超越OpenAI的o1模型;理科成绩夺得金牌,其中计算维度以78.2分位列国内第一。
实现原生模态融合后,“日日新”融合大模型不止能达到人类“看”和“想”的水平,还可以帮助解决更多复杂问题——看不清的字体、数据图表里的信息、文学创作与撰写……这些都可以实现。
英文“草书”难以辨认,“日日新”融合大模型识别快速精准
记者试着让其处理非常潦草的英语笔迹,“日日新”融合大模型能准确“读出”;诸如2的31次方大还是3的21次方大,它能用对数函数的方法解出。
融合大模型解数学题
融合模态 开拓应用新维度
在实际应用场景中,相较于传统大语言模型仅支持单一文本输入的模式,“日日新”融合大模型展现出显著优势,特别是在自动驾驶、办公教育、金融、园区管理、工业制造等天然拥有丰富模态信息的场景中。
“‘日日新’融合大模型能够有效满足用户对图像、视频、语音、文本等多源异构信息的综合处理与识别需求。”商汤科技研发团队介绍。例如,在办公、金融领域,需要处理很多复杂的富模态文档:表格、文本、图片、视频,以及融合这些形式的丰富信息。而基于“日日新”融合大模型的应用——“办公小浣熊”就可以高效地完成处理分析相关的复杂任务。
与此同时,基于融合大模型的优势,“日日新”在视觉交互上也有丰富的应用场景,例如在线上教育、语音客服等场景,均可以结合语音和自然语言来提升交互体验。
反哺基模 走通迭代全闭环
2024年,原生多模态大模型逐渐成为业内探讨的重要方向。然而,由于数据和训练方法的局限,业内很多机构的尝试并不成功——多模态训练过程往往会导致纯语言任务,尤其是指令跟随和推理任务的性能严重下降。
在推动语言模型和多模态模型融合的过程中,商汤科技发展出两项关键的创新技术:融合模态数据合成与融合任务增强训练,进而完成“日日新”融合大模型的训练,推向市场。
记者了解到,在预训练阶段,采用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据,在图文模态之间建立起大量交互桥梁;在后训练阶段,构建了大量的跨模态任务,包括视频交互、多模态文档分析、城市场景理解、车载场景理解等。
通过把这些任务融入到增强训练的过程,融合模态模型不仅被激发出强大的对多模态信息进行整合理解分析的能力,而且还形成了对业务场景有效的响应能力,走通了应用落地反哺基础模型迭代的闭环。