编辑部 发自 凹非寺
量子位 | 公众号 QbitAI
我对于具身智能的定义很简单,就是能帮人类做各种事,比如帮我们的爷爷奶奶养老。
……
现在定义具身智能的L1-L5级没有意义,核心标准还是我们的机器人能解决哪些实际问题。
具身智能趋势大热,敢于给断言的人不多,高阳是一个。
他是清华大学交叉信息研究院助理教授,于美国加州大学伯克利分校获得博士学位,后于加州伯克利大学与 Pieter Abbeel 等人合作完成了博士后研究。目前主持具身视觉与机器人实验室 (Embodied Vision and Robotics,简称EVAR Lab),专注于利用人工智能技术赋能机器人,致力于打造通用的具身智能框架,由他提出的ViLa算法被Figure AI采用。
2024年,高阳作为联合创始人创立具身智能公司千寻智能。这家公司也被称为中国版Figure 01,1年时间快速完成三轮融资,其中种子轮+天使轮2亿。
MEET 2025智能未来大会上,量子位邀请到高阳博士深入探讨了具身智能的发展现状与未来,从模型架构、数据、产业落地等维度展开深入探讨。
MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。
核心观点
具身智能的定义,就是机器人能帮我们做各种事。
AI和机器人制造的成熟,催生具身智能产业。
具身智能要降低对人工采集数据的依赖。
现在定义具身智能L1-L5没有意义,很长时间内都只能停留在L2.99。
我们抵达RobotGPT的1.0阶段,原理已经确定;4年后可以达到RobotGPT-3.5阶段。
希望10年后,世界上10%的人可以拥有自己的机器人。
(为更好呈现高阳的观点,量子位在不改变原意的基础上做了如下梳理)
10年后10%人类可以有专属机器人
量子位:你怎么定义具身智能?
高阳:我觉得这个问题是一个非常直观的问题。
有一次我在做一个关于具身智能的演讲,有一位大概60、70岁老奶奶听我讲很多,问我说什么时候机器人能给她养老。
其实这个就是具身智能。
具身智能就是我们构建一个机器人,这个机器人能(比如在家里面)帮我们做各种事情,比如帮我们的爷爷奶奶养老。
所以我创建了千寻智能,我最大的一个理想和愿望就是在十年之后,希望这个世界上10%的人可以拥有自己的机器人。
它能干什么,也非常直观。比如说我自己每天晚上回到家已经比较晚了,可能想吃点夜宵,吃完之后不想收拾盘子;周末家里很多东西没有归位,我想让一个机器人帮我把这些东西归位……
这些就是所谓的具身智能,有实体机器人可以帮我们做各种各样我们自己不想做或者懒得做的一些事情,这是我认知里的具身智能。
量子位:具身智能这个概念来自于阿兰·图灵,是半个世纪以前开始定义/构想的事。今年被我们定义为具身智能元年,或者说它发展成熟了。您在产业中看到了怎样的技术/要素变化,让您觉得具身智能变得成熟,并让您决定开始创业?
高阳:这里唯一的变量就是OpenAI证明了预训练(Pre-training)加上一系列Post-training的方式,可以真正产生、至少看起来像是人类智能,或者达到人类智能表象一样的能力,我觉得这是现在做具身智能创业的一个最核心的变量。
像刚才大家讲的,以前的机器人都是手写的一些规则,都是写死的,就导致对于环境的适应性很差。其实我之前对机器人硬件并不是特别了解,但当我真的去看的时候,看到工业机器人一年的销量有多少台,我非常惊讶,工业机器人一年的销量全球只有大概200万台的量级左右。
这个量级相比于汽车、手机都是一个非常小的量。背后的核心制约就是机器人非常难用,这只是一个专用的设备,你需要有很高的技术储备,才能把它用起来。
所以我觉得是这两者之间的区别在于,一个是智能技术使得机器人变得越来越好用,另一个是我们在造机器人这件事情上,已经走了非常远,我们可以把机器人做到亚毫米的精度,以非常便宜的价格。
这两方面的成熟催生具身智能产业。当然这个产业现在处于非常初期的阶段,我也经常讲,这个东西其实很难,因为经常讲具身智能像是一个硅基生命的造物主,如果把具身智能做出来了,人类作为碳基生命的引导程序任务也基本完成了。所以我觉得这个东西是很长期的事情,我至少从我自己来讲,我是把它当作一个lifetime的事业来做。
数据仍是具身智能发展攻坚重点
量子位:您怎么看过去一年具身智能领域的核心进展,哪些值得在2025年重点攻坚?
高阳:我认为具身智能过去一年比较大的突破,除了刚刚谈过的VLA模型外,还有一些是模型如何做预训练。像我们现在的方式(包括Phi),都是狂采了一万个小时的数据去训练,让模型具备一些能力。
如果我们回顾当前所有让人印象深刻的大模型,比如ChatGPT、Stable Diffusion、视频生成模型(Sora)等,它们的数据量都是100T tokens或者几十个billion的image-text pair。
现在我们通过人工去采集的操作数据,远远小于这个量级。所以我认为在具身智能发展过程之中,如何去更多利用互联网上的数据做预训练是一个非常重要的事情。
关于这个问题,比如VLA其实做的比较弱。VLA的预训练数据中只有图像和文本。我觉得在学术界,大家有很多新奇的思路来解决这个问题,这应该是未来3-4年内都能够持续发展且非常重要的事情。
△高阳研究组提出ViLa算法
举几个具体的例子。比如我觉得Google的RT-Trajectory是一个比较有代表性的工作。这个模型介绍,如果只用采集的模仿学习的数据去训练,数据量永远不够。
它采用一种新的方法,用一个中间表示来表示机器人移动的大致轨迹,让机器人去大概follow这条轨迹。具体细节是由底层策略直接产生。
类似这类的文章有很多,包括我自己的研究组也做了很多相关工作。我自己做的是一些用物体的未来粒子运动方式来刻画中间层表示。
我觉得这些工作是非常令人兴奋的,因为以前大家也可以去采集数据、也可以去训练模仿学习,但是这波大模型浪潮来临时,我们需要足够多的数据。
这一年这些新的研究工作,其实也为我们未来发展指明了方向。
VLA本身是一个非常好的范式,也是未来核心之一。但是在VLA之外,我看到了更多降低对人类采集数据依赖的工作,这也是今年非常令人兴奋的进展。
现在定义具身智能L1-L5没有意义
量子位:如果我们要定制一个机器人、具身智能标准,这个标准应该是怎样的?
高阳:制定一个标准本意是为了促进一个行业发展,可以衡量每个公司的技术达到了怎样的水平。
但我觉得可能在一个相当长的时间内,无论这个标准是什么样,可能大多数具身智能因为客观技术限制,只能达到或者号称达到L2.99,或者是达到了有限场景内的L4.
所以这个标准最后可能就变成了一个偏向宣传话术的东西,有限时间内大家做不到广泛场景的L4或L5的水平。
所以标准还是要看我们能不能解决客户的需求,这可以是非常清晰的。
比如说我们要服务一些工厂、商业、家庭场景,我们的机器人到底能不能做到,我们服务到这个场景的时候,downtime的概率是多少。
这些是我认为更加明确的、更加可以去追求的一些指标。
甚至我现在觉得,去定义一个具身智能的L1-L5指标也不是非常有意义。
关键在于具身智能大脑能不能解决具体问题,比如外卖送货、比如工厂安装零件,这是需要我们探讨和追求的。
我们还要等机器人“大学毕业”
量子位:那么,我们现在处于具身智能的什么阶段?
高阳:我们刚刚目睹了GPT从1.0到3.5、4.0再到o1的发展。GPT-1刚刚出来时,没人瞧得起它,它说话不利索、没有推理能力,跟人沟通很有问题。
但是在GPT-1诞生时,大语言模型技术的原理已经基本确定。
我认为现在我们处于RobotGPT的1.0阶段。因为基本原理已经定下来,可能未来几年大家看这个技术也还是处于低级水平、没太大进展,但是智能发展是一个指数上升的曲线,所以我个人觉得对于具身智能大脑端,会在4年之后达到RobotGPT-3.5阶段。可能没有那么高阶,但是已经可以看到很多令人惊讶的能力了。
我认为我们距离那一天有一段时间,但也不会很远。
量子位:让RobotGPT上一个大学。
高阳:对,他才刚刚进大学,什么都不会,需要大学毕业,真正进入每一个人的家庭,从现在开始算大概需要10年时间。
虽然GPT-4已经可以回答很多问题了,但是它仍然有10%的情况没有那么可靠,所以我们仍然需要继续提升语言模型的能力使得它能够真的深入到人类生产生活中的方方面面。
对于机器人的模型来讲,我觉得也是一样的,我们在做出来3.5之后,它可能没有那么鲁棒,成本可能有点高,我们需要继续改进这个技术,所以我认为在10年之后会有10%的人拥有自己的机器人。