眼脑并用！Qwen 开源 QVQ 刷新视觉推理想象力

特工宇宙

2024-12-27 16:11发布于浙江科技领域创作者

全文1382字，阅读约需4分钟，帮我划重点

划重点

01阿里云通义千问发布全球首个开源多模态推理模型QVQ-72B-Preview，旨在将视觉信息与深度推理相结合。

02QVQ在权威评测集MMMU、MathVista等上的表现亮眼，取得了超预期的视觉理解和推理能力。

03除此之外，QVQ在数理逻辑、情商和艺术鉴赏等方面也表现出强大的能力。

04尽管QVQ性能超出预期，但仍存在局限性，如语言混合和代码切换、递归推理等问题。

05通义千问的愿景是开发一个全方位的智能模型，为通往AGI的漫漫长路铺下重要基石。

以上内容由腾讯混元大模型生成，仅供参考

近两年，大模型的发展从单模态进化到多模态，从基础对话进化到深度推理，AI 正在持续突破人类认知的边界（特别是在 23 年下半年，随着 GPT-4V、Claude-3 等新一代多模态模型的出现，“视觉智能”便成为了行业关注的焦点）。

然而，真正的技术突破不仅在于看得见，更在于想得透。在多模态领域，大多数模型仍处于“看图说话”的阶段，而能将视觉信息与深度推理相结合的凤毛麟角。

更值得注意的是，目前领先的多模态模型几乎都选择了闭源路线。一个能在视觉推理领域达到前沿水平的开源模型，无疑将为这个方向注入新的活力。

而就在 23 年年末的圣诞节，通义千问带来了一个重磅答案——QVQ（也太可爱了叭）。

继上个月的 QwQ 之后，12 月 25 日，阿里云通义千问又发布了全球首个开源多模态推理模型 QVQ-72B-Preview（不愧是源神）。

第一次看到这个讯息还是在 AK 大佬的帖子上，“这可能是第一个用于视觉推理的开放权重模型”。

也有网友表示：“QVQ 将视觉推理带到了下一个阶段”。

不得不说 Qwen 在海外是真火，还登上了 Hacker News 第二名。

QVQ 在 MMMU、MathVista 等权威评测集上的成绩单也是相当亮眼，都取得了超预期的视觉理解和推理能力。

👀是睿智的狸，还是乡下的猹？让我们来实测一下‼️

体验地址：https://modelscope.cn/studios/Qwen/QVQ-72B-preview

不知道大家会不会有时候看到一个电影片段，或者刷到一个视频台词截图，但死活找不到片名。现在有了 AI 之后方便很多！

比如拿了个《Her》的片段截图，问了问 Claude 先生，很遗憾没答对。

但 QVQ 正确的回答了出来。

同理拿游戏画面测试，识别的也是相当准确。

甚至细节也描述的非常到位。

小试牛刀之后，让我们再来上点强度，来数数椅子！（说实话我一个真人都数成了四把）。

QWQ 正确的回答出了五把，并且逐步思考的非常全面！而隔壁的 Claude 和 GPT o1 都回答错了。

说到思考全面，我们尝试复刻网友展示的一个 Case，拍了一张地铁上的照片，让 QVQ 告诉我该咋去唐人街。

没想到 QVQ 观察的十分细致，通过图片上一些人眼都很难注意到的细节，推理出当前的站点以及列车行驶方向。从多角度分析，并不断反思，最后总结出了一个合理的答案（看来是个心思缜密的 J 人？）

让我们再整点烧脑的数学题，就决定是你了，图论！

稍微有点糊咳咳（反正大家应该看不懂 bushi）但是经过 QVQ 详尽的分析，结果是对滴！

再来个硬核的物理题，发现 QvQ 依然不在话下（比我在搜题软件上得到的答案详尽的多！）

除了数理逻辑之外，情商和艺术鉴赏能力也十分在线。

让 QVQ 判断画作的作家也是手拿把掐。

在 AI 发展的众多突破中，QVQ 的出现让人眼前一亮。不是因为它有多少参数，也不是因为它在某个基准测试上刷新了记录，而是因为它展示了一种难得的可能性：当图像和语言在机器的"大脑"里不再是两条平行线，会擦出怎样的火花？

这个问题的意义远超技术本身。就像一个人，光是会说话还不够，光是会看东西也不够，关键是要把所见所闻融会贯通，形成自己的认知和判断。QVQ在这方面迈出了关键的一步——它不只是能看能说，更重要的是开始学会用看到的东西来思考和推理。

不过，在 QVQ 的官方博客中也有写道：尽管 QVQ 的性能超出了预期，但仍存在一些局限性（语言混合和代码切换、递归推理导致陷入循环没有响应等问题）。通义千问的愿景是开发一个全方位的智能模型（A Omni and Smart Model），“在不久的将来，我们计划将更多模式整合到一个统一的模型中，使其更加智能，能够应对复杂的挑战并参与科学探索。”

从这个角度看，或许 QVQ 的价值不在于它有多完美，而在于它为通往 AGI 的漫漫长路，铺下了一块重要的基石！

--完--

查看原图 221K