划重点
01阿里云通义千问发布全球首个开源多模态推理模型QVQ-72B-Preview,旨在将视觉信息与深度推理相结合。
02QVQ在权威评测集MMMU、MathVista等上的表现亮眼,取得了超预期的视觉理解和推理能力。
03除此之外,QVQ在数理逻辑、情商和艺术鉴赏等方面也表现出强大的能力。
04尽管QVQ性能超出预期,但仍存在局限性,如语言混合和代码切换、递归推理等问题。
05通义千问的愿景是开发一个全方位的智能模型,为通往AGI的漫漫长路铺下重要基石。
以上内容由腾讯混元大模型生成,仅供参考
说到思考全面,我们尝试复刻网友展示的一个 Case,拍了一张地铁上的照片,让 QVQ 告诉我该咋去唐人街。
没想到 QVQ 观察的十分细致,通过图片上一些人眼都很难注意到的细节,推理出当前的站点以及列车行驶方向。从多角度分析,并不断反思,最后总结出了一个合理的答案(看来是个心思缜密的 J 人?)
查看原图 221K