眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力

全文1382字,阅读约需4分钟,帮我划重点

划重点

01阿里云通义千问发布全球首个开源多模态推理模型QVQ-72B-Preview,旨在将视觉信息与深度推理相结合。

02QVQ在权威评测集MMMU、MathVista等上的表现亮眼,取得了超预期的视觉理解和推理能力。

03除此之外,QVQ在数理逻辑、情商和艺术鉴赏等方面也表现出强大的能力。

04尽管QVQ性能超出预期,但仍存在局限性,如语言混合和代码切换、递归推理等问题。

05通义千问的愿景是开发一个全方位的智能模型,为通往AGI的漫漫长路铺下重要基石。

以上内容由腾讯混元大模型生成,仅供参考

图片
近两年,大模型的发展从单模态进化到多模态,从基础对话进化到深度推理,AI 正在持续突破人类认知的边界(特别是在 23 年下半年,随着 GPT-4V、Claude-3 等新一代多模态模型的出现,“视觉智能”便成为了行业关注的焦点)。
然而,真正的技术突破不仅在于看得见,更在于想得透。在多模态领域,大多数模型仍处于“看图说话”的阶段,而能将视觉信息与深度推理相结合的凤毛麟角。
更值得注意的是,目前领先的多模态模型几乎都选择了闭源路线。一个能在视觉推理领域达到前沿水平的开源模型,无疑将为这个方向注入新的活力。
而就在 23 年年末的圣诞节,通义千问带来了一个重磅答案——QVQ(也太可爱了叭)
图片
图片
继上个月的 QwQ 之后,12 月 25 日,阿里云通义千问又发布了全球首个开源多模态推理模型 QVQ-72B-Preview(不愧是源神)
第一次看到这个讯息还是在 AK 大佬的帖子上,“这可能是第一个用于视觉推理的开放权重模型”。
图片
也有网友表示:“QVQ 将视觉推理带到了下一个阶段”。
图片
不得不说 Qwen 在海外是真火,还登上了 Hacker News 第二名。
图片
QVQ 在 MMMU、MathVista 等权威评测集上的成绩单也是相当亮眼,都取得了超预期的视觉理解和推理能力。
图片
👀是睿智的狸,还是乡下的猹?让我们来实测一下‼️
体验地址:https://modelscope.cn/studios/Qwen/QVQ-72B-preview
图片
不知道大家会不会有时候看到一个电影片段,或者刷到一个视频台词截图,但死活找不到片名。现在有了 AI 之后方便很多!
比如拿了个《Her》的片段截图,问了问 Claude 先生,很遗憾没答对。
图片
但 QVQ 正确的回答了出来。
图片
同理拿游戏画面测试,识别的也是相当准确。
图片
甚至细节也描述的非常到位。
图片
小试牛刀之后,让我们再来上点强度,来数数椅子!(说实话我一个真人都数成了四把)
图片
图片
QWQ 正确的回答出了五把,并且逐步思考的非常全面!而隔壁的 Claude 和 GPT o1 都回答错了。
图片

说到思考全面,我们尝试复刻网友展示的一个 Case,拍了一张地铁上的照片,让 QVQ 告诉我该咋去唐人街。

没想到 QVQ 观察的十分细致,通过图片上一些人眼都很难注意到的细节,推理出当前的站点以及列车行驶方向。从多角度分析,并不断反思,最后总结出了一个合理的答案(看来是个心思缜密的 J 人?)

图片
让我们再整点烧脑的数学题,就决定是你了,图论!
图片
稍微有点糊咳咳(反正大家应该看不懂 bushi)但是经过 QVQ 详尽的分析,结果是对滴!
再来个硬核的物理题,发现 QvQ 依然不在话下(比我在搜题软件上得到的答案详尽的多!)
图片
除了数理逻辑之外,情商和艺术鉴赏能力也十分在线。
图片
让 QVQ 判断画作的作家也是手拿把掐。
图片
图片
在 AI 发展的众多突破中,QVQ 的出现让人眼前一亮。不是因为它有多少参数,也不是因为它在某个基准测试上刷新了记录,而是因为它展示了一种难得的可能性:当图像和语言在机器的"大脑"里不再是两条平行线,会擦出怎样的火花?
这个问题的意义远超技术本身。就像一个人,光是会说话还不够,光是会看东西也不够,关键是要把所见所闻融会贯通,形成自己的认知和判断。QVQ在这方面迈出了关键的一步——它不只是能看能说,更重要的是开始学会用看到的东西来思考和推理。
不过,在 QVQ 的官方博客中也有写道:尽管 QVQ 的性能超出了预期,但仍存在一些局限性(语言混合和代码切换、递归推理导致陷入循环没有响应等问题)通义千问的愿景是开发一个全方位的智能模型(A Omni and Smart Model),在不久的将来,我们计划将更多模式整合到一个统一的模型中,使其更加智能,能够应对复杂的挑战并参与科学探索。”
从这个角度看,或许 QVQ 的价值不在于它有多完美,而在于它为通往 AGI 的漫漫长路,铺下了一块重要的基石!
--完--
图片
图片