继此前在今年5月的火山引擎FORCE原动力大会上,字节跳动方面正式发布自研豆包(原名云雀)大模型后。日前官方对外披露了2024年豆包大模型的8大关键进展,同时其还透露,该模型已支撑超过50个应用场景,其中AI智能助手豆包成为国内最受欢迎的AI产品,并通过火山引擎服务了30多个行业,日均tokens调用量超4万亿、较首次发布时增长了33倍。
据官方介绍,此前在今年7月,豆包大模型引入了全新的豆包语音识别模型Seed-ASR、语音生成基座模型Seed-TTS,从而可以听懂20种以上方言夹杂的对话,以及边听边思考、支持随时被打断的能力,并且还学会在说话中表达情感、交互中“插话”,同时保留吞音、口音等人类的习惯。
今年9月,豆包大模型还通过融入音乐生成模型框架Seed-Music、结合语言模型与扩散模型的优势,实现了音乐生成的通用框架,以及极高的编辑可控性,并习得包括词曲编辑、演奏生成、人声演唱等10多项音乐技能。
在图片和视频生成方面,9月火山引擎正式发布豆包视频生成-PixelDance和豆包视频生成-Seaweed两款模型,让豆包大模型学会了从复杂的提示词精准生成包含多个交互主体的高清视频,并支持灵活控制镜头视角。随后在11月,豆包大模型通过不断迭代的文生图模型和通用图像编辑模型SeedEdit,实现了精准呈现复杂场景的图文匹配关系、构建高质量文字渲染,以及自然语言驱动编辑任意图像的能力,支持“一句话P图”和“一键海报生成”。
而在编程和文字领域,12月上旬豆包大模型通过引入代码大模型Doubao-coder实现代码能力大幅提升,深度支持超16种编程语言、11类真实应用场景,以及自由画布预览代码、人机协同编程功能,还可一键完成数据处理和可视化分析。同时其上下文窗口也提升至300万字的业界极限,一次可轻松阅读上百篇学术报告,每百万tokens处理延迟仅需15秒。
值得一提的是,12月中旬火山引擎方面还发布了豆包视频理解模型。据悉,该模型拥有极强的内容识别能力,以及出色的推理能力和细腻的表达能力,可通过视觉感知世界,并融合多感官进行深度思考和创作。
不仅如此,豆包通用模型Doubao-pro也完成全面升级,推理能力进一步强化,并学会了在回答过程中“反思”。根据官方公布的信息显示,该模型通过提升模型稀疏度、引入强化学习等技术,实现了理解精度、生成质量大幅跃升,据称能力可全方位对齐GPT-4o。
【本文图片来自网络】