豆包大模型，继续卷价格

锌产业

2024-12-18 15:27发布于北京科技领域创作者

作者 | 山竹

出品 | 锌产业

如果要问谁是大模型领域未来夺冠的热门选手，我认为至少会有两个：

其一是这一年在To B领域高歌猛进的阿里，另一个则是在To C领域各种产品不断上新的字节。

就在今天，在OpenAI的12场AI线上“座谈会”持续更新中，字节也对豆包进行了更新发布。

在产品发布之前，字节先是通过视频展示了豆包视觉识别能力，可以识别桌面上的物体、可以识别电脑屏幕上的代码、可以看懂你的体检报告。

在这个视频中，豆包甚至可以帮你搞定衣服穿搭、外出指南等一天内的诸多琐事。

这就是这次发布会的重头戏，豆包视觉理解模型。

视觉大模型，是AI生产力关键

自今年5月正式发布后，发布仅7个月（截止12月15日），日均调用量就达到了4万亿次，这是火山引擎总裁谭待给出的豆包大模型日均调用最新数据。

7个月里，豆包大模型日均调用量增长了33倍，这样的增速既有全世界对于大模型的关注度，也有大模型“投流”的广告大战。

此前钛媒体的一份统计数据显示，截止10月29日，kimi 智能助手、字节跳动豆包、腾讯元宝等所有 AI 应用10月全网广告投放（投流）支出超过3亿元人民币。

其中，在10月“投流”花费相对较少的豆包，也支出了2200万元。

这也是为什么大家在2024年对大模型的感知度这么高的一个主要原因，也是这些大模型能够有如此高的增速的一个主要原因。

如此巨额的投资，想要通过用户订阅来做到商业闭环，自是不现实。

毕竟相较于OpenAI将订阅费从20美元/月提升到200美元/月，乃至正在计划的2000美元/月的高级版本，国内大模型依然处于通过价格战收拢用户阶段。

于是，面向更实际商业场景提供服务就成了一个重要的商业模式。

针对这次重点发布的豆包视觉理解模型，谭待重点介绍的正是在面向商业场景的应用。

关于为什么做视觉理解模型，谭待给出的解释是，“只有做好视觉模型，才能让模型有能力处理好真实世界的信息，辅助人类完成一系列复杂工作。”

据谭待介绍，豆包视觉理解模型特别强调三项能力：

第一，内容识别能力。

豆包视觉理解模型不仅可以识别出图像中的物体类别、形状等要素，还能理解物体之间的关系、空间布局和场景的整体含义。

例如豆包视觉理解模型可以通过猫的影子识别出镜子前的动物是猫。

第二，理解和推理能力。

豆包视觉理解模型不仅可以识别内容，还可以根据识别的文字和图像信息进行复杂的逻辑计算。

例如豆包视觉理解模型可以理解图片中的问题，能够根据提示词进行对应的推理计算，给出数学和物理题目的答案和思路。

第三，视觉描述和创作能力。

豆包视觉理解模型有视觉描述和创作能力，可以为一款文创产品写出对应的祝福语。

据谭待透露，在过去两个月里，火山引擎已经邀请了数百家企业对豆包视觉理解模型进行了测试，并找到了不少有价值的应用场景。

视觉大模型进入厘时代

在大会现场，谭待重点介绍了豆包视觉理解模型在教育、旅游、电商三大应用场景中的应用：

在教育场景，豆包视觉理解模型可以优化传统的拍照搜题功能，也可以进一步对孩子的作业进行批改和针对性辅导，例如帮助孩子优化作文。

在旅游场景，豆包视觉理解模型可以帮我们在国外点菜时看外文菜单，当我们参观一些知名建筑或景点时，它也可以告诉我们这些建筑和景点的背景知识。

在电商场景，豆包对于商家想要推销的商品，根据它的产品特性生成对应的营销和直播话术。

此外，在诸如金融、医疗、教育、建筑、体育、物流等更多行业，火山引擎也正在探索豆包的场景应用可能。

2024年，国内大模型在价格战的推动下迎来了一波市场下沉，这波价格战的源头正是今年5月豆包的大幅降价。

彼时，豆包主力模型在企业市场的定价为0.0008元/千Tokens，由此引起了大模型的价格战。

用谭待的话说就是，“我们把整个行业的价格降低了99%，降低到了一个合理的水平。”

这次，火山引擎想要再次将视觉模型价格打下来，定价为0.03元/千Tokens。

谭待说，今天视觉理解模型也将正式进入到了厘时代。

更多科技产业技术、故事、趋势，欢迎关注我们👇

查看原图 191K