机器人AI之困,智驾人请战

撰文 | 张祥威   编辑|马青竹

圣诞节,大洋彼岸,波士顿动力给人形机器人Altas穿上圣诞老人服装,原地翻起跟头。

咱们这边,宇树科技的机器狗B2-W,上演“天赋觉醒”,出尽风头。驮起成年人,能上山,能下水,能翻筋斗。网友大呼,“骑狗上班,就在今天”。

图片

几天后,智元机器人发布开源项目AgiBot World,基于百万真机数据集,相比 Google 开源的 Open X-Embodiment 数据集,长程数据规模高出10倍,场景范围覆盖面扩大100倍。

智元机器人由华为天才少年“稚晖君”创立,在过去一年时间完成七轮融资,估值已达到70亿元。

近2年来,机器人赛道滚烫热辣,也吸引了一拨汽车人。

布局早的,特斯拉的Optimus已进化到第二代,2024年11月小鹏发布了Iron。据国家知识产权局信息,蔚来刚获得一项“换电机器人及充换电站”的专利。12月底,广汽展示了最新产品,第三代人形机器人GoMate。

李想也坐不住了,表示理想汽车百分百会做人形机器人,但并非现在。“如果我们连L4级自动驾驶的汽车都解决不了,怎么去解决更复杂的?”

而这个世界不可能等L4智驾实现之后,才去发展人型机器人。

比如上文提到的,隶属三星的先行者波士顿动力成立于1992年,当红的宇树科技成立于2016年。2017年,人型机器人领域已经集中吸引了一波巨头布局,比如小米、华为等,2019年,苹果也加入。

而汽车势力入局人形机器人,大致分两种,一种由车企孵化团队进行研发,比如小鹏和广汽等。另一种由汽车人离开原公司,组队创业。

做人形机器人这拨汽车人,许多与智能驾驶关系密切。他们熟悉规则算法、深度学习、大模型、世界模型。大疆车载的沈劭劼甚至说,大疆车载底色是机器人公司。

人形机器人结构复杂,包括关节、灵巧手等硬件,负责运动控制的小脑,以及通过大语言模型、模仿学习提供认知和规划能力的大脑。

图片

宇树科技创始人王兴兴认为,相比硬件,机器人行业当下面临的AI挑战更大,且AI技术路线并不统一,已出现模仿学习、深度学习、世界模型、空间模型等多种路线。数据也稀缺。

傅利叶副总裁周斌认为,可用的物理数据集远远不够,具身智能处在非常初期的阶段,人工遥操是目前主流的机器人数据采集方法,但这种方法费时费力。

在现实层面,可以简单说很多硬核问题尚未解决,具备真正的“可用性”和商业性的具身智能非常少。

当汽车人闯进来,或许能带来破局之法?


智驾人切入机器人赛道


2024年世界机器人大会,774家企业参展,其中机器人公司169家。九年前,2015年世界机器人大会,参展企业规模一共100多家。

“机器人赛道允许大家想象,更多面向C端消费群体,现阶段各凭本事。”一位进入机器人赛道的前自动驾驶高管人士告诉《出行百人会/AutocarMax》。

为何离开智驾领域?

他表示,自动驾驶行业本身不赚钱,有了“地大华魔”四家后,其它家机会就更少了,就算拿到订单也不赚钱。再加上,部分甲方车企相对保守,影响了汽车智能化生态。

相比智驾日益收敛的格局,机器人还在春秋战国阶段。国家地方共建人形机器人创新中心总经理许彬近日披露数据,截至2024年,国内外通用人形机器人整机商业公司约150家,国内超过80家。

据《出行百人会/AutocarMax》不完全统计,从智能驾驶切入机器人赛道重新创业的,大概占国内总体玩家的十分之一,主要来自华为、小米汽车、蔚来、阿里巴巴达摩院自动驾驶实验室、地平线、大疆、文远知行、广汽集团等。

图片

智驾转战机器人,技术有渊源,也有区别。

比如,自动驾驶采用车规级Orin芯片,人形机器人采用工规级Jetson Orin芯片,属于降维关系,且芯片的功能安全要求不如自动驾驶。

汽车行业的激光雷达、摄像头、IMU等,可以平移给机器人赛道,不同处在于嗅觉、触觉等传感器。

人形机器人的硬件尚未出现统一范式。类似早期的激光雷达赛道,曾出现过转镜、振镜、机械旋转、Flash、FMCW等多种技术路线,今天仅剩下转镜和振镜两派,代表分别是禾赛和速腾聚创。

小脑方面,自动驾驶采用相对简单的PID(Proportional Integral Derivative)等算法。机器人更多采用非线性控制算法,以及更高级的预测算法等。

汽车高速行驶,要求算法达到短平快的效果。机器人的控制算法更复杂,但好在节拍慢,事故后果不严重,有时间进行运算收敛。

举个例子,近日南京展会上,宇树科技H人形机器人突然站立不稳,出现“抽搐”,对此宇树科技官方表示,“这种情况正常,修一下就可以了。”

但如果汽车在路上突然发癫,可能就会酿成重大安全事故,远非“修一下就可以”。

大脑方面,自动驾驶包括感知、决策、规划、控制;机器人则强调具身感知、具身想象和具身执行。

图片

机器人完成感知后,会为任务目标规划出数百种甚至上千种可能性,然后在大脑的虚拟仿真中跑一遍,看哪一种可能性更容易成功,然后进行尝试。

一名机器人供应链人士说,机器人就有点像奇异博士,擅长从万千可能性中找到唯一成功,重在边缘端的推理和虚拟仿真。笔者认为,自动驾驶必须见招拆招,重在感知和博弈能力,在一条路上,没有很多选择,但是万不能出错。

此外,智能驾驶出身的这拨人具备量产经验,对进度和关键节点把控有一定经验。而机器人赛道的既有玩家,量产经验相对少一些。

以至于有声音认为,“我们现在觉得,这些已有的机器人玩家大概率会死掉,原因是扑进来的大多是科学家,科学家会切入到一个自己不熟悉的领域,比如量产、销售环节。”言外之意,科学家不懂量产和商业落地。

智能驾驶玩家的到来,可以为机器人赛道带来更多支持,有可能打破机器人AI困境。


用大模型炼丹,汽车人敢想敢冲


不久前,一次沟通会上,银河通用创始人王鹤向波士顿动力创始人Marc Raibert提问:

“通用人形机器人终极形态是什么样的?您认为视觉-语言-动作多模态大模型,以及端到端模型是实现通用人形机器人的终极方法吗?”

Marc Raibert不看好端到端,给出的回答是:

“我不认为端到端模型是推动人形机器人取得重要进展的方法。说实话,人们关注‘学习’太多了。我知道应该对这些方法保持乐观的态度,但是你看看现在产业中存在的机器人最佳解决方案,就会发现,‘学习’在其中起到的作用微不足道。”

Marc Raibert认为,控制系统、控制理论等过去二三十年积累下的技术,依然发挥着重要作用。

图片

但在做惯自动驾驶的人看来,他的观点值得商榷。

“大模型通常被业内比作炼丹。现阶段咱们炼了个丹,很好用。然后应该有一帮人去研究它为什么好用,寻找背后支撑的理论,再去丰富控制学。现在的问题在于,用现有的控制理论得不到这么好用的控制结果,所以炼丹是没错的。”上述前自动驾驶高管人士称。

人形机器人公司和大模型公司,早期界线分明。眼下国内估值最高的两家,宇树科技的重心放在硬件层面的本体,对AI投入相对谨慎;另一家智元机器人,更多注重动作编排大模型。

Figure AI上一代产品Figure 01,基于OpenAI的GPT-4多模态大模型,能够听懂人的指令并进行对话,按照指令完成指定任务。新一代产品Figure 02,除了将裸露的线束尽可能集成,喷了哑光漆之外,再次集成了OpenAI 4o大模型。

人形机器人公司对大模型的应用,处于跟随状态,这也导致现有的人形机器能完成的任务相对单一,且大多相似。

大模型公司起初也有边界感,谷歌Deepmind先后推出RT-1、RT-2等用于人形机器人的大模型,从VLM一直到VLA,一度未踏足人形机器人研发。

直到最近,才变了。

据外媒The Information报道,OpenAI重启了四年前解散的内部机器人软件团队,考虑开发一种人形机器人。

图片

本月,谷歌DeepMind 宣布携手机器人公司Apptronik,针对动态现实环境的复杂作业挑战,共同研发新一代人形机器人。

但人形机器人公司,对大模型的投入态度仍未转向,直到自动驾驶出身的新玩家进场。

近日,原地平线副总裁、软件平台产品线总裁余轶南创办的新公司浮出水面,名为维他动力(北京)科技有限公司,经验范围包括智能机器人研发等。公司另外两位联合创始人,分别是前地平线软件平台总架构师宋巍,和理想汽车前智能驾驶产品总监赵哲伦。

“本体我们会向宇树科技看齐,机器人模型、智能化是我们的核心突破点。”一位维他动力内部人士告诉我们。

此前,阿里巴巴达摩院自动驾驶实验室负责人陈俊波创立的有鹿机器人,已将大模型应用在清扫机器人上,可以实时根据地面垃圾量,灵活调整清扫策略。

“大模型是终局。有了大模型之后,比如对机器人说,我渴了帮我拿杯水,你不需要再编程说,扫描SLAM,找到冰箱,规划路径走过去,识别冰箱门,打开。人去冰箱里拿水就是一种下意识。想培养机器人的下意识,让机器人的控制变得更加高级,除了大模型,没别的方法。”上述前自动驾驶高管人士说。


结语


伦敦的人工智能投资公司 Air Street Capital 对2025年做出十大预测,指出由于难以实现产品和市场契合,对人形机器人的投资水平将下降。

高盛发布报告显示,2035年全球人形机器人出货量将达140万台,市场规模约380亿美元。并预测,人形机器人最早应用到工厂的时间为2024至2027年,应用到消费市场的时间为2028至2031年。

可见大规模商业化时间线还是比较远,在这之前机器人的AI需要大手笔投入,需要解决商业落地难问题。难意味着窗口还在,自动驾驶新玩家们能否带来新的想象,有足够时间检验。

—THE END—


出行百人会 | AutocarMax
追踪汽⻋出行产业链进化,关注新产品、新科技、商业逻辑与商业人物,影响圈层中有影响力的人。