火山引擎发布豆包·视觉理解模型,1块钱能处理284张图片

新京报贝壳财经讯(记者白金蕾)12月18日,2024冬季火山引擎Force原动力大会在上海举行。火山引擎总裁谭待公布了豆包大模型家族的全系列升级,同时还发布了豆包·视觉理解模型。据谭待介绍,豆包·视觉理解模型具有更强内容识别能力,包括识别图像知识、动作情绪、位置状态和文字信息等;更强的选择和推理能力,包括对图表、数学、逻辑和代码的识别;更细腻的视觉描述能力,包括细节描述、指令遵循、多种文本创作等。

谭待还宣布,火山引擎要让视觉理解模型进入“厘时代”。1块钱能在豆包·视觉理解模型处理284张图片,比行业平均价降低85%,同样的钱在GPT-4o(一款美国大模型)只能生成52张图片。

谭待还公布了豆包大模型的最新使用数据,豆包大模型发布以来日均tokens(自然语言处理领域计费和收费标准)使用量增长超33倍,日均tokens使用量超过4万亿。

校对 杨利