特斯拉Robotaxi发布后,具身智能话题再引热议,涉及三大技术派

图片

 (图片来源:Pixels

图片


特斯拉又放大招,国内企业:欢迎和强大的对手“一起卷”。

图片


@数科星球原创

作者丨苑晶

编辑丨大兔


近日,特斯拉举办了名为"We,Robot"的发布会,正式揭开了Robotaxi的神秘面纱。在发布会上,特斯拉CEO埃隆·马斯克展示了一款专为自动驾驶设计的全新车型——Cybercab。

据了解,Cybercab预计将依赖特斯拉的全自动驾驶(FSD)软件,可能包括摄像头和激光雷达技术。此外,在该场发布会上,特斯拉还展示了一个专门的打车APP,用于召唤和支付Robotaxi服务。

在自动驾驶业界,FSD颇为知名。一位行业从业者称,国内自动驾驶系统较之还有差距。此轮公开展示,让人们对自动驾驶引导具身智能的未来展开了想象。

数科星球DigitalPlanet认为,FSD下的自动驾驶除驾驶技术高超外,在未来的人形机器人和具身智能领域也可能实现突破。

为此话题,我们找到了国内的一些顶级企业,并就此问题展开了深入讨论。多位企业高管或CEO表示,已经做好了和特斯拉“一起卷”的准备。

虽然对手强大,但几派掌门仍有胜券在握。

01

Sora派崛起前的静默

其实,不论是具身智能还是自动驾驶,根本上是机器对3D物理世界的理解。可以说,哪种技术能理解真实物理世界、进而进行决策,谁就有可能拿到具身智能的最终入场券。

原理上,在实现决策之前,只有通过精确地感知和理解周围的环境,机器才能做出准确的决策并执行复杂的任务。

以目前的技术而言,或有三种方向有望成为未来的佼佼者。

图片

其一是以Sora为代表的文生视频派。其想在机器人植入“脑”。

视频由一系列帧组成。这一派所秉持的,是让机器人学习连续的图像,并从中获得关于物体和环境随时间变化的丰富信息用以加深机器人的理解。

这一派的贡献可能是,让机器人可以在未来具备学习多种操作任务和在多种环境中泛化的潜能。

国内某家顶级的文生视频公司对数科星球DigitalPlanet进行了独家回复。其科学家称:“本质上这是一个鸡生蛋、蛋生鸡的问题,要让机器人更聪明,就要部署更多机器人获取数据,难点是推动飞轮效应的第一个动力在哪里。”

他和他的团队认为,文生视频是解决上述问题唯一的路。“我们所说的具身智能所面临的问题,比汽车这种限定场景更为复杂,你可以理解成,他们是大数据集里的一个子集,”他补充。

这家公司解决的方案是,先通过视频网站采集数据,然后通过视频生成结果反馈到具身智能中,而通过力学采集、自动驾驶(雷达波)采集数据要在之后作为补充。

数科星球DigitalPlanet的再三追问下,其表示,最晚将在明年的此时公布和Robotaxi差不多量级的产品发布。而当下,各家文生视频公司还处在“蓄力憋大招”的阶段。

但好消息是,Sora派已在尝试将AI大脑植入至机器人中。直到此文写作之时,对方表示“已经在小数据集中形成了物理规律的学习”“这一点,你可以在AI游戏的进展中得知,别的就不方便透露了”,这位企业家称。

他的预期是,游戏的scaling law(规模法则)既已完成,就预示着已经有了在大规模数据集中部署的可行性。

对于在机器人中植入“脑”,已经很近了。

图片

02

高精度物理模拟派

其二是以英伟达为代表的,在虚拟环境中测试和优化机器人的技术派。他们规定了机器人的行为动作。

因为,CUDA有着优秀的并行计算能力,可提供高精度的物理模拟,可以让编辑好的行为部署到现实世界中。在英伟达众多算法框架中,多种产品可以作为机器人动作生成工具。

其中,例如在Omniverse平台,提供了逼真的物理模拟,这对于训练机器人理解3D物理世界有所帮助。这一派的优势是,可以通过模拟不同的环境和情况,让机器人可以在没有实际风险的情况下学习和适应。

不过,这一派别极其依赖高质量的3D内容库。

数科星球DigitalPlanet此前分析中,对比GPT所依赖的高质量文本数据语料,高质量的3D内容存量仅仅为前者的1/1000,大量数据并未公开且获取难度大。

也因此,英伟达走上了构建3D市场和数字资产库、与其他数据库合作和利用AI生成3D内容的道路。

不过,以一些国内相关公司的进展来看,这条路似乎并不顺畅。“一些项目开始做定制项目了,这似乎代表着其商业潜力没得到应有的开发、或是仅此而已了”,一位投资人称。

在基于数据生成特定动作方面,还需观察。仅以目前所掌握的情况而言,其作为鲜有服务型机器人的升级版未来可期,但做到极度神似真人,还尚需时间。

图片

03

自动驾驶、车路云协同派

其三是自动驾驶、车路云派。他们影响着机器人的“场”。

应该说,Robotaxi的具身智能发展方向有着代表性意义。一位资深从业者回答数科星球DigitalPlanet:“目前特斯拉FSD进入中国市场,几乎已成为确定性事件,而这个变局的影响才刚刚开始。”

可以预计的是,FSD将成为鲶鱼,再次发生搅动效应。

在特斯拉发布会中,几个要点颇为重要:

其一是,特斯拉的数据训练规模庞大,据称有数百万车队在做测试和收集数据;其二是,因技术同源性,其电池、电力电子系统、先进的电驱系统、软件系统、人工智能计算机,都适用于人形机器人;其三是,特斯拉预计将来实现量产的人形机器人成本大约2万到3万美元,可能比一辆车还便宜。

我们得到的资料显示,此机器人“可以当老师、照顾小孩、遛狗、修剪草坪、购物、帮你倒酒水饮料等等。”

所以,几乎是在一瞬间,自动驾驶走向具身智能的通路被打开了。

元戎启行CEO周光称,“我们正在基于端到端模型和Thor芯片研发VLA模型”,据了解,VLA(视觉-语言-动作)模型旨在使机器人能够理解视觉信息、语言指令,并据此执行相应的动作。该公司率先提及VLA概念,并因此得到了发展先机。

结果是,在这家公司所引导的具身智能已初步具备“智慧”。比如,在一些潮汐路段,碰到堵车时,车辆堵着后面的车,自动驾驶系统会自动“向前挪一挪”。这被认为是,系统已初步具备了少许智慧。

在这一派别的竞争中,核心点仍然是拥有海量的数据。

周光称:“特斯拉未必能成为破局者。”他给出的理由是,FSD入华需要一定时间进行本土化的训练适配,国内主机厂仍具有一定的本土化优势。他认为,一旦智能驾驶系统在消费市场迅速铺开,以这家公司为例的本土厂商所获得的数据量会大大提升,届时与特斯拉的技术差距会逐渐缩小。

图片

除了端到端,智能网联的问题也尤为重要。

中国工程院院士国家智能网联汽车创新中心首席科学家李克强认为:“FSD做的实际上是车云协同,而在这个过程中车路云一体化才是自动驾驶的终极。”(CICV大会)

蘑菇车联的内部员工提及,可以将具身智能看作智能体。在未来,当智能体变多之时,不同智能体之间的协同问题将会水涨船高。

在智能体变得越来越多的时候,协同问题或将成为具身智能发展的关键。为了解决这个问题,蘑菇车联的方案是“通过建立‘通感算’网络体系,为车辆(自动驾驶车辆、非自动驾驶车辆)以及各种智能设备(机器人、无人机等)提供系统级实时数字孪生服务。”

他们还预估,未来将出现两套网络,“天网”由卫星系统构成,而“地网”就是车路云网络。原理是,智能体需要接入车路云网络,因为车路云网络可以在系统级层面解决群体安全、群体效率与群体博弈问题。

蘑菇车联副总裁吕斌认为,类似智能车这类“单点智能”场景会向着系统智能的方向进化。

目前,据数科星球DigitalPlanet所知,蘑菇车联车路云一体化项目已在北京、上海、深圳、天津、四川、辽宁、湖南、云南、山东、湖北等多地实现落地运行。

当然,这也为具身智能的大面积应用做好了充分的铺垫。

结尾:Sora装脑、Omniverse装四肢、自动驾驶和路网云做场,已构成一场关于自动驾驶和具身智能的新角斗场。

科星球DigitalPlanet看到,新的争夺已悄然开始。而在FSD进入中国市场前夜,“自动驾驶三大家”之一的萝卜快跑等企业已摩拳擦掌,静待竞争来临。

作为完全对标Robotaxi的企业,自2021年以来已在包括北京、上海、广州、深圳、重庆、武汉、成都、长沙、合肥、阳泉、乌镇在内的全国11个城市开放载人测试。

目前,国内的无人车已在成本方面有着巨大优势。而其他自动驾驶公司也已在快速地跑马圈地。

各路“神仙”似乎已在跃跃欲试。

在不远的将来,街上遍布人形机器人的情形将不会遥远。可以确定的是,在这个过程中,国产Sora、3D大模型、自动驾驶、无人车和车路云企业将为此不遗余力。

这势必是一场激烈的战斗。