作者 | 山竹
出品 | 锌产业
如果要问谁是大模型领域未来夺冠的热门选手,我认为至少会有两个:
其一是这一年在To B领域高歌猛进的阿里,另一个则是在To C领域各种产品不断上新的字节。
就在今天,在OpenAI的12场AI线上“座谈会”持续更新中,字节也对豆包进行了更新发布。
在产品发布之前,字节先是通过视频展示了豆包视觉识别能力,可以识别桌面上的物体、可以识别电脑屏幕上的代码、可以看懂你的体检报告。
在这个视频中,豆包甚至可以帮你搞定衣服穿搭、外出指南等一天内的诸多琐事。
这就是这次发布会的重头戏,豆包视觉理解模型。
豆包视觉理解模型不仅可以识别内容,还可以根据识别的文字和图像信息进行复杂的逻辑计算。
例如豆包视觉理解模型可以理解图片中的问题,能够根据提示词进行对应的推理计算,给出数学和物理题目的答案和思路。
第三,视觉描述和创作能力。
查看原图 191K