划重点
01纽约大学、耶鲁大学、斯坦福大学的研究者探索多模态大语言模型在视觉空间智能方面的表现。
02他们推出了 VSI-Bench,一个基于视频的基准测试,涵盖了近290个真实室内场景视频,包含超过5000个问答对。
03尽管模型与人类之间存在较大的性能差距,但多模态大语言模型在视觉空间智能方面展现出了新兴的潜力。
04为此,研究者提出了用于自我解释的语言和认知图的选择模型。
05未来,研究者将继续探索如何提高多模态大语言模型在视觉空间智能方面的表现。
以上内容由腾讯混元大模型生成,仅供参考
希望 2025 年 AI 领域能带来推理之外的突破。
论文地址:https://arxiv.org/pdf/2412.14171v1 论文主页:https://vision-x-nyu.github.io/thinking-in-space.github.io/ 论文标题:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
发现 1:空间推理是影响 MLLM 在 VSI-Bench 上的主要瓶颈。 发现 2:语言提示技术虽然在语言推理和一般视觉任务中有效,但对空间推理有害。 发现 3:在记忆空间时,MLLM 会根据给定的视频在模型中形成一系列局部世界模型,而不是统一的全局模型。
查看原图 625K