划重点
01李飞飞和谢赛宁团队发现多模态大语言模型能够记住和回忆空间,甚至出现了局部世界模型和空间意识的迹象。
02团队研究了涵盖各种视觉空间智能任务的新基准VSI-Bench,包括配置类、测量估算类和时空类任务。
03然而,空间推理仍是MLLM在VSI-Bench上表现的关键瓶颈,大多数开源模型在此方面表现不佳。
04通过提示词技术,如CoT或多数投票等方法,团队发现这些技术在一般的视频分析任务中有效,但在空间推理任务中往往有害。
05未来研究的关键方向是开发更有效的空间记忆机制,以提高MLLM的视觉空间智能。
以上内容由腾讯混元大模型生成,仅供参考
新智元报道
新智元报道
【新智元导读】李飞飞、谢赛宁团队又有重磅发现了:多模态LLM能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现了空间意识!李飞飞兴奋表示,在2025年,空间智能的界限很可能会再次突破。
论文地址:https://arxiv.org/abs/2412.14171
这些测试,大模型被人类完败
多模态大模型已经展现出空间思维
项目介绍
VSI-Bench
VSI-Bench评估
在空间中,MLLM如何以语言思考
发现 1:空间推理是MLLM在VSI-Bench上表现的主要瓶颈
发现2:尽管语言提示技术在语言推理和通用视觉任务中有效,但对空间推理而言往往有害。
在视觉上,MLLM如何思考空间
发现 3:在记忆空间时,MLLM从给定视频中在其「脑海中」形成一系列局部世界模型,而非统一的全局模型
LLM距离「既能理解,又能生成」视觉内容,还有多远?
论文地址:https://arxiv.org/abs/2412.14164
查看原图 60K