12月18日,上海世博中心,火山引擎 Force 大会正式开始前,现场近4000人被一条广告片吸引住了注意力。
一个人举着手机,对准一个白色的球形物,询问豆包:你知道这是什么吗?豆包回答:这是一台创意加湿器,外形像太空舱,顶部小孔可喷雾气。他又把手机对准一页杂志,询问是什么图片。豆包回答:这是一张星云图,可能是猎户座中M78星云。
用手机摄像头随意扫描,豆包能解析体检报告,能修改错误的代码,能看懂简笔画,能帮人寻找高铁检票口,就像一个懂得一切知识的万能帮手。
广告片背后是豆包模型的视觉能力,这是12月18号字节跳动重磅推出的新能力。相比语言模型,视觉模型有更丰富的交互形式,能极大拓展模型的应用场景。
图:火山引擎总裁谭待
当天,豆包还进一步放大招,通过技术创新优化成本,让视觉模型价格比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。火山引擎总裁谭待表示,豆包大模型虽然发布较晚,但一直在快速迭代进化,目前已成为国内最全面、技术最领先的大模型之一。
视觉模型进入“厘”时代
大会现场,谭待展示的一张PPT,让人梦回5月。
5月份时,谭待也是展示了一张PPT,宣布豆包语言模型比行业平均价格降低99.3%,让语言模型的价格首次进入“厘”时代,自此掀起了国内大模型降价的高潮。
这一次,不同的场地,相似的动作,豆包视觉理解模型定价为每千tokens输入价3厘,1元钱就可处理284张720P的图片,比行业价格便宜85%。
豆包语言模型降价后,豆包大模型使用量快速增长,截至12月中旬,日均tokens使用量已超过4万亿,较5月首次发布时增长了33倍。这一次,豆包视觉模型也有望延续语言模型的成绩。
谭待称,“让每家企业用得起”是视觉理解模型的定价逻辑,“我们希望用合理的、可持续的、一步到位的价格,让企业和开发者可以放心大胆地做多模态的创新。”
研究显示,人类接受的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界,同时也会降低人们与大模型交互的门槛,为大模型解锁更丰富的应用场景。
但此前,视觉模型的价格一直是阻碍AI应用普及的难题。无论对于创业者还是用户,都有较高门槛。
豆包视觉模型降价后,有望带动AI视觉应用的普及。谭待称,这次豆包推出视觉模型,希望一次做到位,就像当初推出语言模型一样,让大家都能用起来,用起来就有更多的反馈、更多的创新,这是非常重要的事情。
推动AI技术普惠、应用爆发
视觉理解模型即“看图说话”,可以识别图像中的物体类别、形状等要素,理解物体之间的关系,给出空间和场景的整体判断。相对比语言模型,视觉模型将带来更大的AI应用场景。
正式发布视觉模型之前,豆包已经邀请了数百家企业,内测了2个月,在多种场合应用视觉模型。
根据测试结果,在教育、电商、图片问答领域,豆包视觉模型能力有明显的突破。教育场景下,家长把手机对准一张孩子的英语作文,豆包可以自动批改,并标注错误,进行打分。电商场景下,用户发一张图片给豆包,豆包可以帮忙找出同款品牌,并给出推荐价格。图片问答领域,在国外旅游的人拍一张建筑,豆包可以立刻告诉他建筑位于哪座城市,具有什么历史故事。
除上述三个场景外,金融、医疗、建筑、物流、体育等领域,视觉模型也能发挥更大作用。
据了解,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型有着细腻的视觉描述和创作能力。
目前,豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示:“豆包一直在努力,让用户的输入更快更方便”。为此,豆包产品非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。
大会上,豆包3D生成模型也首次亮相。该模型与火山引擎数字孪生平台veOmniverse结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。
谭待表示:“今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族,火山引擎希望帮助企业做好AI创新,驶向更美好的未来。”