封面:人形机器人与人类的未来城市,AI生成
CyberRobo:
科幻到现实:增强人类
前言
若要给2024年的人形机器人一个标记,爆发、元年、ChatGPT时刻......我们认为都可,取决于你进入了人形机器人光谱里的哪个位置,以及要通往何处。维特根斯坦说,不要以他人例子为指南,而应将本质作为向导。找到北极星远比过往的船只更重要。
接下来我们将以类似篇章的形式分享,CyberRobo在过去一年人形机器人的记录、铭记、思考.....或者来自人类的某些迷思(老实说,这比数据有意思多):
01.科幻开始兑现
可以说年初,斯坦福大学的华人团队打开了人们对电影《机器人管家》的想象,他们在X公布了研究五年的成果:Mobile ALOHA智能家政机器人,向众人展示了机器人真的可以做家务了。人们真正感受到从科幻到现实生活从未如此之近。去年的人形机器人,包括波士顿动力还在秀旋转跳跃和跑酷。尽管后面,团队称Mobile ALOHA是人类远程操控下完成的,自主性还不理想。
半年之后,升级版的HumanPlus可以模仿人类学习任务并自主操作。ALOHA则打开人形机器人进入现实世界的大门。
02.涌现与狂暴的欢愉
如果去年的人形机器人只是小范围的爆发(集中在8月),今年则是人形机器人的一次涌现,这些硅基生命在今年2月开始突然诞生:星尘智能S1、UniXAI Wanda、天工、银河通用G1、星海图R1、智元远征A2系列、普渡PD7/D9、傅利叶GR-2、宇树G1、星动纪元Star1、逐际动力CL-2、小鹏Iron、云深处DR-1等等(太多了,可以搜CyberDaily公众号),开始走入现实世界,不再是围绕实验室场地打转和模拟操练,而是进入人类活动的环境中。
从西部世界到东部世界,也有一种确保人形机器人的ChatGPT时刻发生在中国。如你所看到上到国家政策实质性导向——到各地创新中心,辐射到人形机器人产业带,从沿海三角洲到中西部。学院派、创业派、海归派以及老派、跨界派都加入其中....在涌现本体之余,国内人形机器人基建也比想象中迅速。
狂暴的欢愉在起舞当中,当然我们都不愿看到狂暴的结局。
03.自我进化的Optimus和100亿
特斯拉Optimus有一种我不发声,江湖都有哥的传说之感;而一发声则带来无尽的解构——解构特斯拉Optimus的.pdf四处可见。
特斯拉对Optimus的更新,像是自我进化——特斯拉都在展示Optimus在不同阶段的能力极限和未来应用场景的可能性:从 Optimus在今年初人工遥操叠衣服展示运控、手部精确任务处理等能力提升,到自主分拣电池芯片、嵌入FSD计算机自主导航,以及在WeRobot之后,展示多个Opitmus共享认知、探索未知空间、自主充完电延续前序任务处理、人机实时交互等能力,包括后面户外盲视越野...
尤其是在WeRobot活动和下面视频可以看到,特斯拉工程师们已经将软件和硬件完美融合和优化,让整个人形机器人运行得如此丝滑和顺畅,感觉到扑面而来的生命力。Optimus变得越来越有机了,而这也仅是Optimus在特斯拉战略中的一个开始,明年随大量OPtimus的内部应用和Gen3到来,回头看今天的更新,也许那是令人更加难以置信的。
值得再讲讲,Optimus Gen3的手,它是将(或者是其迭代版本)成为人类仿生义肢的方案。22自由度,比Gen2轻,也具备触觉感知、材质更柔软安全...而未来可与Neuralink组合,直接无延迟自然手的操作体验。马斯克多次公开表达这个未来的应用方向,而Neuralink的团队已经启动脑机接口植入物控制假肢的可行性研究。
同样,我们也认为这将是一种应用趋势:人机共融,增强人类。Clone Robotics的Clone Hand 同样未来也可作为仿生义肢的解决方案,只是他们先解决Clone完整体以及Hand现实任务执行的里程碑。
回到现实,特斯拉明年计划部署1000个Optimus内部使用,他们不急于将其交付给客户,而是待2026年之后,清晰的商业化路径,将主要以租赁的方式提供服务。马斯克同样坦言,Optimus需要改进,实现可真正大规模量产的版本——意味着如果照搬现有的Optimus设计思路或方案并不明智。
而100亿已经成了人形机器人野望的一个具象化的目标,也是马斯克的野心,到2040年,马斯克预测地球上将达到100亿个人形机器人,他后来还增加了一个条件,当Optimus年产达到100万时——这个时间点在2030年开始。Opitmus的价格将在2万美金。他还没说完的是,需求决定了量产,量产决定成本等等。
最后,不要忘了Optimus文化的力量,这是所有厂商不可忽略的要素,在大众市场而言,Optimus已经占据了绝对心智高地的优势。
04.Figure的奇迹
从去年CGI演示动画开始就要对标特斯拉Optimus的Figure,可以说很励志。创始人布雷特·阿德科克在成立之初就每天打电话邀请人加入Figure(现在每周都在摇)。没有捷径,要么写邮件要么打电话。不到18个月发布两款人形机器人:Figue01、Figue02. 拿了目前人形机器人领域最大一笔融资:6.75亿美金——OpenAI、英伟达、微软、贝佐斯加入其中。
Figue01从年初煮咖啡和与人类自然语音对话递苹果之后,打开机器人智能的大门。
后续的厂商也基本照此范本开始展示人形机器人的性能,而后签约宝马,也一定程度影响其它人形机器人路陆续寻找汽车厂落地之处,比如Apptronik Apollo进入奔驰、Sanctuary Phoenix 在麦格纳......随即来中国找供应链,以及扩展工厂....
并在8月推出F.02,展示辅助BMW生产自动化的潜力,但还不是地表最强——这个称号毫无意义。上头的阿德科克不忘挑衅了下马斯克(后秒删)——有一条定律:不要跟马斯克杠和对赌。
Figue02最新的版本,速度提升了400%,执行任务的准确率提升了7倍,并通过BMW的测试,明年初正式上线运营,一切都似乎顺利进展,而不久前交付了一个Figure02给客户商用,开始为Figue产生现金。可以说Figue是Agility之后第二个赚钱的厂商。
祛魅来看,Figue在供应链依然处于劣势,如何像特斯拉一样拥有所有人形机器人真正大批量生产制造的条件?显然不是扩展几栋大楼能实现的。Figue在长期的招聘中需要找一个懂全球供应链和生产制造的供应链职业经理人,与此同时今年早些时间,LG总裁具光谟来美国视察本土业务,阿德科克与其细谈人形机器人规模化的事情,后面可能找LG来实现真正的量产。
阿德科克的融资能力不差,他参与创办的eVTOL Archer Aviation已经上市,供应链生产制造的短板可能是Figure长期要补齐的,以及他们正在构建高度垂直整合的人形机器人公司。
05.Clone的西部世界
Clone是个异类,从西部世界走出来的制造商。今年终于了一个比较完整的人形机器人实体,我们从几年前分享这家公司的产品,实在有趣。从CloneHand原型到Clone Torso2。
在一众人形机器人厂商以金属复合材料打造的硅基类人生物进入现实世界,孤独的Clone Robotics一往无前,走自己完全复刻人类的理念,设计真正的仿人人形机器人。
正如Clone创始人CEO达努什说,我们正在构建我们自己想要的android(仿生人);同样他也直言,像特斯拉这种构建方式并非一劳永逸,面对现实世界场景中,只是刚性人形机器人(没有类人肌肉)是一种愚蠢的设计。
Clone从骨骼、肌肉、血管、神经系统复刻人类的生命系统,柔软仿真皮肤,这些要素的构建都在完全仿人运动,每次肌肉收缩、动力增强、感知环境......现在他们正在攻克人工智能驱动执行任务的问题。
Clone给人太不真实了,但这是真正在发生。明年,Clone 将发布首批279个Clone Alpha,可预订,并配备Telekinesis训练平台,让用户可以教的Clone Alpha新技能,它可以洗衣做饭、倒酒、清洁家里等等。
西部世界里的host就在走进人们家里,可能很多人还未反应过来。而Clone正在复制人类的副本,推及到每个人的生活领域。
06.NEO:第一个硅基家人
NEO诞生于EVE,仿佛是圣经里的神话故事。但这是1X与众不同的策略,长达两年的真实世界的数据采集、训练、基础任务模型、正在构建的世界模型——1X为NEO在未来家庭或护理等大众场景的应用提供了基底,当然也延续了EVE仿人的设计。身高约1.65米,体重仅30公斤,却能深蹲或硬拉 70 公斤的重物,比他的体重还要重2倍多,五指手20个自由度,几乎可以操作人类所需的精细活,没有夹点,意味着当人触碰NEO时不用担心被夹伤手,而柔软的皮肤和非常轻的重量,也保障人们免受碰伤或砸伤......
这些源自1X联创CEO Bernt的人形机器人设计哲学,也是来自李小龙的武术哲学:Be water
他在一次采访,提到传统机器人(尤其是工业机器人)的局限性,应该要像水一样,这是李小龙武术的秘诀,也是人形机器人设计的关键,意味着人形机器人应该像人类一样,具备柔软性、顺从性和适应性,而不是僵硬和对抗
NEO也在进化,在今年的圣诞节,它的步态速度提升不少。1X在2027年要制造10万个人形机器人,价格在手机和汽车之间。
07.OG Atlas与New Atlas
人形机器人的舞会,怎能少了老大哥波士顿动力。在前几年大赚人们呼声的OG Atlas,今年突然就不跳舞了。波士顿动力在自我革命,OG Atlas也要面对现实——无法量产,无法商业化,从10年研发中退役的液压Atlas有种黯然伤神之感。
电动Atals代表波士顿动力参与到这场所谓具身智能时代当中。更精致紧凑、轻量的设计,无论旋转躯体、肢体,还是拟人波比跳、俯卧撑、后空翻,这几个月电动Atals都继承了OG高超的运动性能,也超越了其运动天赋。
但是,客户并不看重这些,他们看重的是,能否解决业务场景的问题。直到万圣节前期,电动Atlas实测一些具体事务——搬运发动机盖到移动货架。
运动性能是波士顿动力的强项,虽然国内如宇树、加速进化等厂商也都复刻。光靠蛮力步行,还需要认知智能,这也是波士顿创始人马克·雷伯特在专注的事项,如何将认知智能与精确运动结合起来。
波士顿动力在10年时间里,真的错过了AI层面的研究,于是他们最近联合丰田研究院,借助其大行动模型来来加速New Atlas的发展。
明年电动Atlas就要到现代汽车厂实训,好在今年波士顿动力即时止损,他们在年末也迎来一波裁员。商业化压力下,需要电动Atlas做实事了,表演太多高动态动作,再不商业化,估计背后的现代集团会像通用一样,撤资Cruise 关闭Robotaxi项目,卖掉波士顿动力。
08.直膝类人走路
碎步、踱步、原地踏步...拜登式步行终于被解决了。国内众擎SE01先打破这个僵局,也是目前走得最像人类(包括2m/s)的人形机器人;宇树G1也能直膝走路,步态拟人;Cyan青心意创(原萨恩异创)的Orca Ⅰ、小鹏第二代人形机器人Iron都开始不同程度的直膝走路...这是一个信号。
移动不是目的,确是到达目的的重要工具。双足人形机器人移动速度慢是长期以来的通病,Asimo跑得快,但还是弯腿行走,也会踱步,到现在让许多人形机器人直膝行走似乎都特别困难。
200万年前,人类(直立人)才学会站起行走,使其可以到更远的地方寻找食物,跑得快躲避危险,而到20万年前,人类(智人)才演化到现代的步态。从直立人开始,走得更远(见多识广,快速行动),促使大脑的不断进化(脑容量更大,更聪明),直到智人出现,也就是我们人类,如你看到的促生一系列的文明。
简而言之,人类从早期的类人猿进化到完全直立行走花费了大约600万年的时间,这个过程也伴随着骨骼结构、平衡控制以及能量效率的逐步演变。
人形机器人直膝走路,某种程度上也改变其设计,也让其物理智能的边界突破空间的限制。
09.集群协作:群体智能
从单兵作战到集体合力,集群协作。今年的人形机器人开始出现集群协作。他们就像蚂蚁觅食、蜂群防御、鸟群迁徙等一样——这种模仿自然界中的群体行为,可以让人形机器人相互通信、协作,完成单个人形机器人做不了的任务。
MagitLab在最新发布的工厂实训的视频中,可以看到多个MagicBot有序任务中衔接作业,从搬运零部件到分拣,组装和质检....实现真正的无人智能自动化,将生产力提升新的等级。
Agility 在亚马逊、GXO等客户现场部署多个Digit完成与AMR搬运货物箱的任务后,在最近也发布仓库自动化任务的多个Digit协作的演示,卸垛、嵌套、堆叠....盘活整个仓库空间的使用率,也提升运转效率,客户最想看到的解决方案。
对于人形机器人而言,多个人形机器人序列任务的协作的,也意味着开始可以使其产生类似生物的群体智能,可以开始有环境里,高效处理复杂任务的能力——也标志着机器人技术从单机智能向群体协作智能的跃升。尽管目前还是初级的阶段,而随AGI推进,这些人形机器人的群体智能不再像蜂群劳作,表现类人水平。
而特斯拉在We Robot之后的更新中提到,多个Optimus可以共享环境认知和记忆,这就像人类一样,开始用故事共识串联彼此,形成智人的群体智能。
这也是在长时间,特斯拉通过招聘大量人员三班倒来遥操训练Optimus,包括特斯拉的超级计算机群Cortex,让Optimus取得了跨越式的进展。
10.人机友好:增强人类
HRI(人机友好交互)是容易被忽略的要素。应该放在第一位,如果不是,那么其服务的对象并不是人类,而是人类创造的物体(专业机器人)和空间。人形机器人厂商们的愿景是将其人形机器人送入家庭,但当下的人形机器人,老实说大多服务工业制造等密闭场景,尽管是定位为通用人形机器人。
比如这几个人形机器人在设计理念上,遵循了人本主义的理念,也正如1X联创CEO Bernt所言的具备柔软性、顺从性和适应性。
胸前的显示屏,除了社交娱乐互动,也能提供围绕老人信息、个性化生活的应用服务。
广汽第二代具身智能机器人,同样令我们感到惊艳,广汽并未追求完全类人的设计,而是从用户多用途考虑。其可变换带机械臂灵巧手的四轮式机器人和代步机器人。意味着一体多用,如面向家庭,该机器人可以作为生活智能助手,护理助手,照料小孩、辅助老人、行动不便的人打理生活;尤其是智能代步出行(一公里内),它可以成为老人、残障人士的代步出行机器人,增强行动能力,只需坐上它,自然语音对话,成为一个人的自动驾驶伙伴,增强生活自由的能力。
再次提及NEO和Clone,作为家庭应用的人形机器人,其体现人机友好的设计。1X设计NEO一种四两拨千斤的感觉,30公斤的身体,可撑起70公斤的重物,高负重比满足家庭生活的需要,且依然从安全为原点,低齿轮比,柔软织物覆盖.....
Clone更不用说,全身组织、韧带、肌肉骨骼等都来自复合材料,人们不可能拥抱一个金属坚硬物体而感到舒适。
噪音同样值得一提,NEO和Clone几乎是静音运行。人类感到舒适的分贝范围通常在 40~60 分贝之间,该环境下的声音被认为是柔和、平静的,不会对听力造成压力或让人感到烦躁。Clone 的水泵在没有任何隔音措施的情况下运行噪音为 36 分贝。而我国的噪音标准是,比如在疗养区,居住区,分贝不超过55,夜间则是45以下。所以NEO、Clone在未来进入家庭、养老院等个人化场景时,听觉感知的舒适度优势明显。工业机器人的分贝通常在60~70 分贝。
特斯拉Optimus Gen3的手,也令人舒适,将电机执行器放在前臂,手掌改用腱绳牵引,外部裹着触觉感知的柔软皮肤,提高人与之互动的安全和真实体验,也能快速敏捷地与人互动反馈,比如最的接网球测试。Gen3 Hand是可作为人仿生义肢的一种。
未结束
写得太累了,还有一半,本想一气呵成写完,但大脑不允许。这么看,人的大脑并适合不长时间运行,所以AI的另一个使命是增强人的大脑,脑机接口也如此。人形机器人在中间,可以成为人类(赛博格-后人类)行动的末端执行器了。
明天继续。