豆包视觉模型：以更低成本推动AI技术普惠

经济观察报

2024-12-24 16:44发布于北京经济观察报官方账号

12月18日，上海世博中心，火山引擎 Force 大会正式开始前，现场近4000人被一条广告片吸引住了注意力。

一个人举着手机，对准一个白色的球形物，询问豆包：你知道这是什么吗？豆包回答：这是一台创意加湿器，外形像太空舱，顶部小孔可喷雾气。他又把手机对准一页杂志，询问是什么图片。豆包回答：这是一张星云图，可能是猎户座中M78星云。

用手机摄像头随意扫描，豆包能解析体检报告，能修改错误的代码，能看懂简笔画，能帮人寻找高铁检票口，就像一个懂得一切知识的万能帮手。

广告片背后是豆包模型的视觉能力，这是12月18号字节跳动重磅推出的新能力。相比语言模型，视觉模型有更丰富的交互形式，能极大拓展模型的应用场景。

图：火山引擎总裁谭待

当天，豆包还进一步放大招，通过技术创新优化成本，让视觉模型价格比行业价格便宜85％，以更低成本推动AI技术普惠和应用发展。火山引擎总裁谭待表示，豆包大模型虽然发布较晚，但一直在快速迭代进化，目前已成为国内最全面、技术最领先的大模型之一。

视觉模型进入“厘”时代

大会现场，谭待展示的一张PPT，让人梦回5月。

5月份时，谭待也是展示了一张PPT，宣布豆包语言模型比行业平均价格降低99.3%，让语言模型的价格首次进入“厘”时代，自此掀起了国内大模型降价的高潮。

这一次，不同的场地，相似的动作，豆包视觉理解模型定价为每千tokens输入价3厘，1元钱就可处理284张720P的图片，比行业价格便宜85％。

豆包语言模型降价后，豆包大模型使用量快速增长，截至12月中旬，日均tokens使用量已超过4万亿，较5月首次发布时增长了33倍。这一次，豆包视觉模型也有望延续语言模型的成绩。

谭待称，“让每家企业用得起”是视觉理解模型的定价逻辑，“我们希望用合理的、可持续的、一步到位的价格，让企业和开发者可以放心大胆地做多模态的创新。”

研究显示，人类接受的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界，同时也会降低人们与大模型交互的门槛，为大模型解锁更丰富的应用场景。

但此前，视觉模型的价格一直是阻碍AI应用普及的难题。无论对于创业者还是用户，都有较高门槛。

豆包视觉模型降价后，有望带动AI视觉应用的普及。谭待称，这次豆包推出视觉模型，希望一次做到位，就像当初推出语言模型一样，让大家都能用起来，用起来就有更多的反馈、更多的创新，这是非常重要的事情。

推动AI技术普惠、应用爆发

视觉理解模型即“看图说话”，可以识别图像中的物体类别、形状等要素，理解物体之间的关系，给出空间和场景的整体判断。相对比语言模型，视觉模型将带来更大的AI应用场景。

正式发布视觉模型之前，豆包已经邀请了数百家企业，内测了2个月，在多种场合应用视觉模型。

根据测试结果，在教育、电商、图片问答领域，豆包视觉模型能力有明显的突破。教育场景下，家长把手机对准一张孩子的英语作文，豆包可以自动批改，并标注错误，进行打分。电商场景下，用户发一张图片给豆包，豆包可以帮忙找出同款品牌，并给出推荐价格。图片问答领域，在国外旅游的人拍一张建筑，豆包可以立刻告诉他建筑位于哪座城市，具有什么历史故事。

除上述三个场景外，金融、医疗、建筑、物流、体育等领域，视觉模型也能发挥更大作用。

据了解，豆包视觉理解模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。此外，该模型有着细腻的视觉描述和创作能力。

目前，豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示：“豆包一直在努力，让用户的输入更快更方便”。为此，豆包产品非常注重多模态的输入和打磨，包括语音、视觉等能力，这些模型都已通过火山引擎开放给企业客户。

大会上，豆包3D生成模型也首次亮相。该模型与火山引擎数字孪生平台veOmniverse结合使用，可以高效完成智能训练、数据合成和数字资产制作，成为一套支持 AIGC 创作的物理世界仿真模拟器。

谭待表示：“今年是大模型高速发展的一年。当你看到一列高速行驶的列车，最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族，火山引擎希望帮助企业做好AI创新，驶向更美好的未来。”

查看原图 299K