当机器人学会“交头接耳”:俄罗斯CogAI实验室让数千个自动机器人在迷宫中实现零碰撞的新技术

这项由俄罗斯CogAI实验室(CogAI Lab, Moscow)研究团队完成的工作,以预印本形式发布于2025年5月,编号为arXiv:2605.07637,有兴趣深入阅读的读者可通过该编号在arXiv平台查询原始论文全文。

**当仓库里的机器人开始"撞车"**

考虑这样一个场景:一个大型自动化仓库里,数百台搬运机器人同时启动,每台机器人都有自己要去的地点和要拿取的货物。没有人在旁边指挥,每台机器人只能看到自己周围几格范围内的情况,就像一个人站在拥挤的集市里,只能看到身边几步之内的人群。在这种情况下,机器人之间该如何避免相互碰撞、顺利完成任务?

这不是一个假想的难题,而是现代物流、搜救、自动驾驶等领域每天都在面对的真实挑战。研究者们把这类问题抽象为"多智能体路径规划"(Multi-Agent Pathfinding,简称MAPF),本质上就是:如何让许多个体同时在同一个空间里移动,既不互相碰撞,又能尽快各自抵达目的地?

解决这个问题的方法从理论上说存在"完美答案"——用一台超级计算机掌握所有机器人的位置和目标,统一规划所有人的路线。然而,数学家已经证明,随着机器人数量增多,这种"集中式"方案的计算量会以爆炸性速度增长,实际上很快就会变得不可用。因此,研究者们转向了另一条路:让每台机器人自己做决定,只看自己能看到的信息,自主选择下一步该怎么走。

但这里有个显而易见的问题:如果每台机器人都只顾自己的视野,遇到拥堵怎么办?遇到需要"你让我、我让你"的对峙局面怎么办?这就需要机器人之间能够"沟通"——把自己掌握的信息告诉邻居,让大家共同协商出一个合理的行动方案。

CogAI实验室的研究团队正是为了解决这个"沟通"问题而设计了LC-MAPF(Local Communication for Multi-Agent Pathfinding,面向多智能体路径规划的本地通信方法)。他们提出了一种全新的框架,让机器人在做决策之前先进行多轮"交头接耳",通过反复传递信息逐步协调彼此的行动计划,最终在不依赖任何中央指挥的情况下,实现数千台机器人的顺畅协作。

---

一、从"各自为战"到"互通消息":多智能体路径规划的演进历程

要理解LC-MAPF的价值,得先明白这个领域之前走过的路。

最早期的方法是"集中式规划",就像一个交通指挥中心掌控所有路口信号灯:有一台统一的规划系统,知道所有机器人在哪里、要去哪里,然后为每台机器人计算出一条完美的路线。这类方法中有代表性的包括CBS(冲突树搜索)及其各种变体,理论上能给出最优解。问题是,当机器人数量从几台增加到几十台、几百台时,计算量会以令人绝望的速度膨胀——这在数学上被称为NP难问题,意思是随着规模增大,即便世界上最快的计算机也无能为力。

于是研究者开始探索"分布式"或"去中心化"方案,让每台机器人根据自己看到的局部情况独立决策。这类方法的关键是训练出一个"策略"——一套决策规则,告诉机器人在各种情况下该往哪个方向走。近年来,机器学习在这里发挥了重要作用:通过让机器人在大量模拟环境中反复练习(强化学习),或者直接模仿已知好方案(模仿学习),机器人能学到相当不错的决策能力。

2025年初,一个里程碑式的工作出现了:MAPF-GPT。这个方法用类似ChatGPT背后技术的"变换器"(Transformer)神经网络,在约十亿个"观察-动作对"上进行大规模训练,相当于让机器人看了十亿次"专家示范",从中学习如何移动。MAPF-GPT的性能相当出色,超越了当时大多数同类方法。

然而,MAPF-GPT有一个明显的短板:它的每台机器人都是"独自思考"的,没有任何机制让机器人之间传递信息、协商行动。用一个比喻来说,MAPF-GPT的机器人就像一群训练有素但戴着耳机、彼此听不到对方声音的快递员——他们各自都有很好的经验判断,但遇到需要协商的局面时,只能靠经验猜测对方会怎么做,而不能直接沟通确认。

当然,也有一些方法尝试引入通信机制,比如MAGAT、SCRIMP、DHC、DCC等。这些方法允许机器人把自己的观测信息或状态分享给邻居,但它们通常只进行**一轮**信息交换——每台机器人发出一条消息,收到邻居的一条消息,然后做决定。这就好比两个人商量"你先走还是我先走",但只允许各说一句话,说完就必须行动,没有机会根据对方的回应再调整自己的想法。

LC-MAPF的核心创新正是打破了这个"只能说一轮"的限制,引入了多轮迭代通信。

---

二、"多轮协商":LC-MAPF的通信机制是怎么运作的

要理解多轮通信的价值,可以用一个日常场景来类比。

两个同事在走廊里相向而行,眼看就要撞上。单轮沟通的情况下:第一个人说"我往右让",第二个人也说"我往右让",结果两人同时往同一侧移动,还是撞上了。如果允许多轮沟通,情况会好很多:第一轮,两人都说"我想往右走";第二轮,双方意识到彼此想法冲突,一个人改口说"好,那我往左走";第三轮,两人确认不再冲突,各自按计划行动。这种反复协商和确认,正是人类在复杂协作中自然而然使用的沟通策略。

LC-MAPF把这个过程形式化并嵌入神经网络。下面用白话把它的工作流程说清楚。

每台机器人首先用自己的"眼睛"——一个11×11格的方形观测区域——扫描周围情况,了解障碍物的位置、附近其他机器人的位置和目标方向、自己当前位置与目标的距离等信息。这些信息被打包成一串"记号"(token),就像把看到的东西用符号记录下来。

接着,一个称为"编码器"的神经网络对这串记号进行深度处理,把观测信息压缩成一个精简的"内心世界模型"——研究者称之为潜在状态(latent state)。这个压缩过程借鉴了一种叫做Perceiver的架构思想:不把所有原始信息都传来传去,而是先提炼出一个紧凑的摘要,通信时只传递这个摘要。这样做的好处是,通信量不会随着观测信息的丰富程度而暴增,保持了系统的可扩展性。

压缩之后,机器人进入通信阶段。每台机器人手里有一个"消息向量",初始时是一个系统设置好的默认值(可学习的初始向量)。现在开始多轮传递:

第一轮,每台机器人把自己的消息向量发送给5格范围内的邻居(最多12个邻居加上自己,共13条消息)。收到邻居消息后,机器人用一个"解码器"神经网络把这些邻居消息与自己的内心世界模型融合在一起,产生一个更新后的消息向量,准备发出去。

第二轮,用更新后的消息向量再次广播给邻居,再次接收,再次融合更新。

如此反复,在实验中共进行四轮。四轮之后,每台机器人根据最终的融合结果,计算出五个方向(上、下、左、右、原地等待)的概率分布,选择概率最高的方向行动。

这里有个精妙之处:这些"消息"本身的含义从来没有被人为规定过,没有人告诉机器人"你应该在消息里传递你的目标位置"或者"你应该告诉邻居你打算往哪走"。消息的内容完全由神经网络在训练过程中自己摸索出来。训练的目标很简单——整个系统尽可能精准地模仿专家规划的动作。反向传播(梯度下降)会自动调整消息的内容,让它传递出"有助于邻居做出更好决策"的信息。换句话说,通信内容是从数据里"涌现"出来的,而不是被人工设计的。

---

三、向"专家"学习:LC-MAPF的训练方式

LC-MAPF采用的训练方式叫做模仿学习(Imitation Learning),核心思路是:找到一个"专家",收集专家的决策数据,然后训练神经网络模仿专家。

这里的"专家"是LaCAM*——一个集中式的路径规划算法,理论上能为所有机器人计算出接近最优的无碰撞路线。研究团队让LaCAM*在大量不同的地图和场景中运行,记录下每台机器人在每个时间步的观察信息和相应的最优动作,积累成一个庞大的训练数据集。

这个数据集的规模相当可观:来自迷宫地图、随机障碍地图和房屋布局地图三类场景,总共约2350万个样本。由于每个样本包含场景中所有机器人的观察-动作对,实际的观察-动作对数量约达75亿个。与此同时,数据集中还包含每个时间步的通信邻接关系信息,即每台机器人的邻居是哪些。

训练时,神经网络的目标是最小化"预测动作"和"专家动作"之间的交叉熵损失——通俗地说,就是让网络的判断尽可能贴近专家的判断。训练在单块NVIDIA H100 GPU上进行了80万次迭代,总计约消耗900个GPU小时(相当于在一块顶级显卡上连续运行约37天)。

训练完成的模型拥有约300万个可训练参数。作为对比,MAPF-GPT的最大版本有8500万参数——LC-MAPF用不到MAPF-GPT三十分之一的参数量,却取得了更好的性能,这体现了通信机制带来的信息效率提升。

模型的核心超参数方面,编码器和解码器各有3层Transformer模块,注意力头数为3,嵌入维度为192,潜在维度为96,潜在令牌数量为32,通信轮数为4。学习率采用余弦衰减策略,最大学习率为6×10??。

---

四、在多样化战场上接受检验:实验设置与基线比较

研究团队在POGEMA基准测试平台上进行了系统评估,这是一个专为多智能体路径规划研究设计的标准化评测框架,包含多种类型的地图环境。

四类测试地图分别是:随机地图(Random),在一定大小的网格中随机放置障碍物;迷宫地图(Mazes),有复杂弯折通道的迷宫结构;仓库地图(Warehouse),模拟真实自动化仓库布局,起点和终点被限制在特定区域;城市地图(Cities Tiles),模拟城市街道网格。其中,随机地图和迷宫地图是训练时见过的类型,而仓库地图和城市地图是训练时从未出现过的"陌生地形",专门用来测试模型的泛化能力。

随机地图和迷宫地图的大小为17×17到21×21格,测试机器人数量从8个延伸到96个;仓库地图是33×46格,最多测试192个机器人;城市地图是64×64格,最多测试256个机器人。每个场景的最长运行步数被限制在128步(城市地图为256步)。

与LC-MAPF进行比较的基线方法包括:MAPF-GPT(最大的8500万参数版本)、MAPF-GPT-DDG(MAPF-GPT的微调改进版)、SCRIMP(结合了强化学习、模仿学习和通信的方法)、DCC(支持选择性通信的方法)、HMAGAT(使用超图注意力网络的方法)、MAGAT+(增强版图注意力网络方法)。

评估指标主要有两个:成功率(Success Rate),即在限定步数内所有机器人都到达目标的比例;以及SoC比率(Sum-of-Costs Ratio),即算法给出的总路径代价与LaCAM*给出的最优路径代价之比,比率越低说明方案越接近最优解。

结果相当清晰:在四类地图的所有测试条件下,LC-MAPF的成功率持平或超越所有对比方法,包括参数量是它28倍的MAPF-GPT-85M。在路径质量方面,LC-MAPF在大多数情况下也取得最佳或接近最佳的表现。有一个小小的例外值得一提:在迷宫地图上,MAPF-GPT-85M的中位SoC比率略低于LC-MAPF(1.24对1.30),但从平均值来看,LC-MAPF(1.4)反而优于MAPF-GPT-85M(1.42)——这说明LC-MAPF的表现更加稳定,不容易出现极端糟糕的情况。在仓库地图上,HMAGAT的路径质量略好于LC-MAPF,但HMAGAT在其他地图类型上的表现要差得多,并不具备LC-MAPF那样跨场景的泛化能力。

---

五、通信轮数的玄机:多少轮才是刚刚好

研究团队对"通信轮数"这个参数做了系统性的消融实验,测试了从1轮到8轮的不同配置,用仓库地图作为测试场地,机器人数量从32增加到192。

结果揭示了一个非常有趣的模式。当通信轮数为1时,无论机器人数量多少,成功率都是0——也就是说,所有实例都没有成功解决。这个发现相当震撼,意味着仅仅接收一次邻居消息是完全不够的,系统需要至少两轮才能开始产生有效协调。

从2轮开始,成功率逐渐出现,但在2轮配置下,高密度场景(如192个机器人)的成功率仍然为零。从3轮起,即便是最困难的场景也开始出现成功案例。而到了4轮——也就是训练时采用的轮数——性能达到峰值:在大多数难度级别下取得了最高成功率。

继续增加轮数(5轮、6轮、7轮、8轮)并不能进一步提升成功率,在某些配置下甚至略有下降。不过,更多轮数确实能减少碰撞次数——即使任务最终成功完成,期间发生的摩擦也更少。

从碰撞计数的角度看,4轮配置明显优于其他轮数,碰撞数量大幅低于3轮及以下,也普遍低于5轮及以上。对于192个机器人的极端场景,4轮配置的碰撞数约为1175次,而1轮配置高达5330次。

这个实验传递出一个清晰的信息:通信轮数并非越多越好,存在一个"甜蜜点",恰好与训练时的设置吻合。这也体现了神经网络对训练配置的"习惯性"——它学会了如何利用4轮通信,但面对更多轮次时反而有些不知所措。

---

六、断线测试:如果通信被干扰会怎样

真实世界里,通信不总是可靠的。Wi-Fi信号可能不稳定,无线电干扰可能导致消息丢失。研究团队专门测试了LC-MAPF在通信故障条件下的表现:以一定概率将某台机器人发出的消息替换为随机噪声向量(从标准正态分布中采样),测试20%故障率和50%故障率两种极端情况。

在随机地图上的测试结果显示,对于较小的群体(32个机器人及以下),即便面对50%的消息故障率,成功率仍然保持在1.0——全部成功。这说明对于小规模、相对简单的场景,机器人有足够的自主判断能力,不完全依赖通信消息。

当机器人数量增加到48个及以上时,故障的影响开始显现。在50%故障率下,64个机器人的成功率从无故障时的0.98下降到0.77,碰撞次数则从219次飙升到821次。这个降幅是显著的,但也说明系统并非脆弱不堪——即使有一半的消息是垃圾,机器人仍然能完成四分之三的任务。

更值得关注的是碰撞次数的变化。即使任务成功完成,通信故障也会导致更多的"擦肩而过式碰撞",说明通信质量直接影响着整体协作的顺畅程度,而不仅仅影响最终是否能到达目标。

---

七、通信范围的权衡:多少邻居才够用

LC-MAPF默认允许每台机器人接收13条消息(包括自己的消息和最多12个邻居的消息)。这个数字的选择有几何上的根据:一台机器人能在当前步骤内与之发生碰撞的,只有紧邻的12个格子上的机器人——4个正上下左右格、4个斜对角格、4个相隔一格的方向格。换句话说,13条消息覆盖了所有当前步可能发生碰撞的情形。

研究团队通过实验验证了这个设计的合理性,测试了将通信邻居数限制为1、2、4、8、13时的成功率差异,测试地点是迷宫地图。

结果显示,通信范围对性能有决定性影响。当限制为1(只和最近的一个邻居通信)时,面对64个机器人,成功率只有可怜的6%;限制为2时,同样场景下成功率也只有18%;限制为4时提升到58%;限制为8时达到79%;而完整的13时达到87%。对于较少的机器人(32个以下),即便限制为4,成功率也能保持在1.0,因为实际上观测范围内的机器人数量本来就少于限制值。

这个实验同时证明了另一件事:LC-MAPF的通信是真正有用的,不是摆设。当通信被严格限制时,性能确实大幅下降,说明机器人之间交换的信息对决策有实质性的贡献。

此外,研究者还提到了"链式通信"的潜在优势:即使A机器人和C机器人超出了直接通信范围,信息也可以通过中间的B机器人进行中转——A第一轮告诉B,B第二轮告诉C。这种链式传播让信息能够在多轮通信中扩散得更远,部分弥补了通信范围有限的不足。

---

八、扩展到数千机器人:LC-MAPF能撑住吗

多智能体系统一个致命的弱点是"扩展性"问题:当机器人数量从几十台增加到几百台、几千台时,很多通信方法的计算开销会以超线性的速度增长,最终变得完全不可用。

研究团队在256×256格的超大地图上测试了LC-MAPF的扩展能力,机器人数量从1000增加到5000,障碍物密度从0%到30%。

结果令人放心。在空地图(0%障碍)上,1000个机器人需要约474步完成任务,5000个机器人需要约508步——差距不大,而且随着机器人数量增加,步数几乎是线性增长,而不是指数级膨胀。障碍密度为10%和20%时,结果类似,步数小幅增加。当障碍密度提高到30%时,情况有所恶化:从2000个机器人开始,一些实例在2048步的上限内未能完成,但1000个机器人的30%密度场景仍然以532步顺利解决。

从计算时间角度来看,LC-MAPF处理1000个机器人的一个决策步骤约需0.12秒,而处理5000个机器人约需0.65秒——增长幅度大致与机器人数量成正比,体现了线性扩展的特性。相比之下,SCRIMP和DCC等通信方法在机器人数量增多时计算时间以指数方式爆炸,根本无法在这个规模下进行直接比较。

线性扩展性的背后,是LC-MAPF通信架构的设计选择:每台机器人的通信对象固定为最多13个,与总机器人数量无关。无论场景里有100台机器人还是5000台,每台机器人做决策时处理的消息数量始终相同,因此总计算量与机器人数量保持线性关系。

---

九、加了"安全气囊"之后,谁更能干

研究者还单独评测了一种叫做"碰撞屏蔽"(Collision Shielding)的后处理机制,具体实现为CS-PIBT。这个机制的作用类似于汽车的防抱死刹车:当神经网络选出的动作会导致碰撞时,由一个基于经典算法的系统介入,在优先级框架下重新分配动作,强制产生无碰撞的结果。

开启碰撞屏蔽后,各方法的相对排名发生了一些有趣的变化,使得结果更难解读。在随机地图上,MAPF-GPT-85M的成功率最高,而HMAGAT成功率最低;但在路径质量方面,情况完全相反:HMAGAT的SoC比率最低(路径最优),MAPF-GPT-85M的SoC比率却显著偏高(路径最差)。

这种看似矛盾的结果有一个合理解释:MAPF-GPT使用历史动作记录作为观察的一部分。当碰撞屏蔽覆盖了神经网络的原始选择,实际执行的动作与网络预期的动作不一致,导致下一步的观察输入偏离了训练时见过的分布——就好比一个人练习走路时总是走直线,突然被强行拐弯之后,接下来的步态就会乱掉。这种"分布偏移"会让模型在后续步骤中表现失准,有时反而不如不加屏蔽。

HMAGAT则相反,开启碰撞屏蔽后路径质量大幅提升,说明这个方法的神经网络本身并不特别依赖历史动作信息,反而能从外部的强制纠错中持续受益。

研究团队在报告这部分结果时刻意指出:碰撞屏蔽会显著改变各方法的相对表现,如果不把学习策略本身的贡献与屏蔽机制的贡献分开来看,很容易得出误导性的结论。这正是他们在主实验中默认不启用碰撞屏蔽的原因——为了更清晰地评估学习策略本身的质量。

---

十、从数字走进现实:真实机器人的实验

所有数字和曲线最终都要经受现实的检验。研究团队搭建了一个真实的模块化迷宫实验场地——用标准化的木质地板模块和可插拔的墙体单元拼出迷宫,每块地板是30厘米×30厘米的正方形,允许快速重新配置布局。

执行任务的机器人是基于Waveshare JetBot平台深度改造的定制版本,尺寸约17厘米×17厘米×22厘米。机器人搭载Jetson Nano 4GB计算模块运行Ubuntu系统,装备了带编码器的直流电机和RPLIDAR A1激光扫描仪。机器人之间的通信通过Zenoh插件实现,底层定位和导航分别使用SLAM Toolbox和Nav2导航栈完成。

将离散网格规划应用于真实机器人面临几个工程挑战。首先是坐标对齐:LC-MAPF规划的是离散网格单元,但机器人在连续空间中移动,需要通过计算机视觉技术将网格坐标与真实地图对齐。其次是运动同步:差速驱动机器人在转向和前进时需要分阶段执行,研究团队将每一个离散步骤分解为先"转向"再"前进"两个阶段,并要求所有机器人等待彼此完成转向后再同步前进。第三是邻居感知:在标准导航栈中,其他机器人会被视为需要绕行的障碍物,但LC-MAPF的规划本身保证了不会发生碰撞,因此团队将其他机器人从局部代价地图中移除,把碰撞避让完全交给规划层处理。

实验结果以视频形式记录,展示了三台机器人在真实迷宫中的协调导航过程,包括交叉口协商和狭窄通道的让行行为。LC-MAPF策略无需任何修改,直接从仿真迁移到真实机器人上运行,机器人成功协调完成了各自的任务。

---

说到底,LC-MAPF讲的是一个"沟通改变一切"的故事。在那个拥挤的仓库里,每台机器人不再是孤立的决策者,而是通过简短的、反复的信息交换,在行动之前先把彼此的意图"对齐"。四轮来回,就像四次快速眼神交流,胜过了冗长的指令体系,也规避了盲目横冲直撞的混乱。

更重要的是,这套"交头接耳"机制并不需要有人专门教机器人该说什么、怎么说——通信的内容完全从模仿专家行为的训练中自然涌现。这意味着,随着未来有更多高质量的专家数据,模型还能继续进化,而无需重新设计通信协议。

对于物流、仓储、搜救、甚至未来的城市交通而言,这类去中心化、可扩展、又具备协作能力的规划方法代表着一种真实可行的技术路径。当然,当前的工作还有一些显而易见的局限:实验中的真实机器人数量只有3台,距离"数百台协作"的实际部署还有相当距离;通信方式目前假设是完美同步的,而现实中的无线通信存在延迟和乱序;此外,现阶段仍然依赖集中式的位姿信息共享,完全自主的去中心化感知还需要进一步探索。

这些都是值得继续追问的方向:如果通信延迟是随机的,系统能否仍然协调?如果机器人的传感器会出错,如何保持稳健性?如果地图会动态变化,多轮通信能否适应实时更新?对这些问题感兴趣的读者,可以通过arXiv编号2605.07637查阅原始论文,那里有完整的方法描述、实验数据和更多技术细节。

---

Q&A

Q1:LC-MAPF和MAPF-GPT相比,有哪些实质性区别?

A:MAPF-GPT是一个纯粹依靠个人经验决策的系统,每台机器人只看自己的局部观测就做出行动选择,没有任何机器人之间的信息传递。LC-MAPF则在此基础上引入了多轮通信机制:在做出最终行动之前,每台机器人会先和邻近的机器人进行四轮信息交换,逐步对齐彼此的行动意图。LC-MAPF只有约300万参数,不到MAPF-GPT最大版本8500万参数的四分之一,却在几乎所有测试场景下取得了更高的成功率。

Q2:LC-MAPF的通信内容是人工设计的吗,机器人在传递什么信息?

A:完全不是人工设计的。研究团队没有规定机器人应该在消息里传递什么内容,消息向量的含义完全由神经网络在训练过程中自主学习。训练时唯一的目标是让每台机器人的动作尽可能贴近专家规划的动作,反向传播会自动调整消息内容,让它传递出"有助于邻居做出更好决策"的信息。这种通信内容从数据中"涌现"的特性,是LC-MAPF设计上的一个核心亮点。

Q3:LC-MAPF为什么用4轮通信而不是更多轮?

A:这是从实验中观察到的经验性结论。消融实验表明,从1轮到4轮,成功率随轮数增加而稳步提升;但从4轮继续增加到5轮、6轮乃至8轮时,成功率不再提升,有时甚至略有下降。这种"甜蜜点"现象与训练时使用的轮数直接对应——模型在4轮通信下训练,就习惯了利用4轮信息做决策,面对更多轮次反而无法有效利用额外信息。不过,更多轮数确实能在一定程度上减少碰撞次数。