宁波海曙人形机器人最新研究成果获国际顶级学术期刊关注

问AI · RAM模型如何提升机器人三维空间操作可靠性?

央广网宁波5月1日消息(记者张雯雯 通讯员王禹)近日,由宁波海曙科创平台浙江人形机器人创新中心(以下简称“浙江人形”)联合香港中文大学、浙江大学等多家高校与科研机构共同完成的机器人空间智能研究 “A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation” 发表于国际顶级机器人学术期刊《Science Robotics》。该研究提出名为RAM(Retrieval-Augmented Manipulation)的三维空间理解与操作模型,为提升机器人在复杂长程任务中的操作可靠性提供了新的技术路径。

图片

人形机器人(央广网发 通讯员供图)

当下,以视觉语言大模型(VLM)为代表的AI技术正在提升机器人理解自然语言指令和分解复杂任务的能力。但从“听懂指令”到“完成动作”之间,仍存在关键鸿沟:机器人需要在三维空间中理解物体的位置、朝向、尺度、可操作区域及相互关系,并将这些信息转化为可执行的运动约束。

针对这一挑战,由浙江人形等提出的RAM,借鉴检索增强生成(RAG)的思想,为大模型配备可查询的外部三维知识库。机器人执行任务时,模型可以按需检索物体类别、几何属性、功能平面、抓取点等空间先验信息,从而弥补视觉语言模型自身三维空间理解不足的问题。与将知识隐含在模型参数中不同,RAM的空间知识更加显式、可解释,也便于扩展。

此外,团队构建了面向机器人操作场景的空间理解问答评测集,从相对位置、旋转方向、操作可行性、任务规划和尺寸估计等维度评估模型的空间认知能力。结果显示,在该评测集覆盖的多类空间推理任务中,RAM整体表现优于多种代表性视觉语言大模型。而除核心任务外,RAM还展现出一定通用性与扩展性。

浙江人形相关负责人介绍,人形机器人要走向真实应用场景,不仅需要硬件本体、灵巧手和运动控制能力,也需要理解三维环境、判断物理约束并规划可执行动作的算法能力。这一空间智能技术的研究,也为人形机器人未来走向复杂应用场景提供了支撑。

据了解,目前,围绕平台建设与场景需求,浙江人形正持续关注三维感知、任务规划、灵巧操作和具身智能等关键能力的融合发展,推动相关技术在工业制造、家庭服务、智能康养等颇具挑战性的场景中的探索验证与逐步落地。

“我们也将继续推动前沿研究与工程实践之间的衔接,围绕机器人空间认知、长程任务规划和自主决策等方向开展探索,助力人形机器人在更复杂、更真实的环境中实现可靠操作与智能协作。”该负责人表示。