“让机器人把事情干好,比像人更重要。”
一个机器人公司,放了十几个人在武汉研究怎么剥龙虾!听起来是不是有点魔幻而搞笑?
但他山科技不是在“玩”,而是在“练”。他们派出专门团队扎进湖北潜江,每天面对着成筐的小龙虾,研究“头尾怎么分离得更稳”、“虾肉怎么取得不碎壳”,在高温、高湿、有粘液的环境中一帧帧录制、建模、仿真,试图用机械手,复刻人类三指掐虾尾的精细操作。
这个事情,他山科技已经在武汉专门组建团队,和湖北省、潜江市的政府及企业开展合作。
他们的目标不是让机器人跑步、跳舞,而是让机器人能“干活”。
在“聚合智能产业发展大会2025”上,他山科技CEO马扬反复强调,“让机器人把事情干好,比像人更重要。”
△他山科技CEO、联合创始人 马扬
他山科技扎在机器人触觉感知领域,主打“递水不掉地、剥虾不碎壳”的技能包训练,把芯片和解决方案做到指尖,把仿真做进英伟达,还在湖北建起专门团队研究小龙虾头尾分离。
成立于2017年,他山科技经历过机器人行业遇冷和爆火的周期,比起外界对机器人的过度关注,他们更关心一件事:机器人,能不能在没人操控的情况下,没有延迟地把一瓶水递到人手里?
马扬不许产品失败率超过1%,因此只要递水洒了一次,就没人再用第二次。虽然现在还做不到,但他相信:再过2、3年,触觉感知就能做到和人类平起平坐。
他也相信,我们这一代人老去时,身边照护的,一定是机器人。
在大会间隙,马扬接受了「智车星球」等媒体的采访,他谈到了他山科技为什么专注在触觉芯片这个细分市场,机器人为何需要触觉、如何在仿真里“练技能包”,为什么在湖北建团队攻坚剥小龙虾。
触觉是重要的感知战场
媒体:为什么机器人需要触觉?哪些机器人对触觉的需求是最强烈、最迫切的?拥有了触觉之后,机器人的体验可以带来哪些提升?
马扬:现在普遍会把人形机器人定义为具身智能机器人。
具身智能是在边缘端会产生感知的数据,需要在边缘端做计算、决策,再到执行的过程。对于人来讲,如果手端没有感知的能力,就像戴了一个厚厚的隔热手套操作,能力就将大幅度下降。
机器人对人的意义,是给人干活的。人干活需要一双灵巧的双手,就需要触觉传感的能力做支持。
触觉感知跟视觉感知不同,视觉、听觉集中在头部,大脑支持它运算。而触觉是分布式结构,皮肤是触觉器官,最核心干活的是双手。很多手做的事,是不经过大脑的。比如摸到尖的东西就躲开,递水时手会跟着水晃动调整,靠的就是手端的神经元加小脑决策。
这就是机器人为什么需要触觉感知。
原来工业产线上已经用了非常丰富的自动化设备,但没解决“柔性”和“泛化”的问题。比如汽车产线90%已自动化,但把零部件从包装箱里拿出来,再到把塑料套去掉的工作,自动设备难以胜任,因为动作每次都不一样。
再比如,把软的线束端子对端子的插进去,这种插拔的过程往往也很难解决。
媒体:公司成立是2017年,已经经历了一个漫长的时间了。后面可见的还是会比较漫长,因为整个具身产业的前景和发展的情况,我们也不好预知。咱们对于商业化的路径是怎么考虑的?
马扬:我们刚成立的时候,是看到那一代像波士顿,像国内优必选,这样的先锋企业做机器人,我们那时候就说,机器人将来真的能实现工业化、商业化,走入到家庭,它要干活。
对于具身来讲,我们经历了过去两三年的寒冬,又到过去两三年的快速发展期,整体还是比较乐观的。对于他山来讲,拿到的订单、销售额是去年十几倍的增长速度。
我们说未来是一个漫长的过程,是因为最后的市场是非常大的,它会整个把人在生产力上的东西整体颠覆一遍,肯定是一个数千亿级以上的应用市场。
对于其他,无论是工业端、商业端还是家用端,先找对人比较繁重,或者人不愿意做,或者这个东西对机器来讲容易学习,有6个月到一年的时间,就可以学到跟人差不多能力的赛道上去做应用。
比如说在物流机器人上,我们在终端具备对不同纸盒的柔性识别,并且拿起来的能力,还能送到你的家门口,或者是到一个商业楼宇里面去。
我们在湖北在做一个案例,已经训练了机器人预处理小龙虾的雏形方案。等到明年,送上餐桌的小龙虾可能就是机器人预处理的。
小龙虾的头尾分离,其实是不太好做的,人剥小龙虾,是一个“拧+感知”的过程,不是直接拔下来,而是拧到“咔嚓”一下,正好分离。这就是人手感知系统在工作的表现,传统机器就是强硬把它拔掉,肉跟着头走了,效果不是很好。
2023年湖北省就已经立项,我们进来后小试,效果非常好。目前团队已经招募湖北本地华科、武大毕业生,组建了十几个人的团队,计划今年年底完成模型训练,并推进小批量试验,明年应用到产线当中,后年基本能实现大批量的应用。
从成本和商业价值角度看,当地小龙虾加工厂一年人工投入就上亿,如果机器人替代只需要2亿元设备,分5年摊销,也只要4-5千万,成本省一半。而且湖北此类企业有5、60家,技术成熟后还能向江苏等其他省份推广,复制性很强。
媒体:触觉是不是一个特别细分的市场?它的空间大概有多大?跟触觉同等的还有别的领域的芯片吗?
马扬:触觉在机器人领域是一个细分的赛道,在感知方向上,我们原来比较熟悉的是视觉。因为视觉不仅应用在机器人领域,还广泛应用在其他人工智能领域。所以到机器人端的时候,能力已经达到了跟人类似水平。
为什么触觉在过去两年被重视?具身智能的核心,在于机器人在边缘端获得足够多的感知信息,人在干活的过程中,绝大多数信息是来自视觉和触觉的融合。
比如说现在咱俩对话,更多就是在VLA的模型下,视觉跟语言驱动。但是如果我说“你把这个话筒拿起来”,或者“你把这个水端起来”,这个动作就是靠视觉+触觉的协同了。
从去年讲具身,到今年讲场景,让触觉的需求变得更具体,更急迫。再往下一步说,人的五感中,可能味觉是机器人最不需要的,视觉、听觉已经达到跟人类似的水平,触觉是现在最有希望,也最必要补齐的一块。大概两到三年,触觉在感知能力上就可以跟人平齐。
触觉是在所有感知端里,唯一跟客观世界有交互的方式。我们看一个东西、听一个东西,并不会改变客观世界。但是当你触觉操作的时候(抓、放、推),它就会改变。
举一个例子,人脸识别的软件可能(有时候需要)看三次(才能成功),识别率只有60%多,你也能忍。但如果说机器人递一杯水,递3次水有一次就掉在地上,你一定是不能接受的。别说60%多,可能99%,100次里有一次失误,你也不能接受。
这也决定了,触觉在商用端的成功率要做到99.7%,而在工业端也要达到99.97%。这也就是为什么说,触觉训练的过程要更长。
再往下就是嗅觉,嗅觉其实更难一点,人的嗅觉能力,要比我们能看到的,嗅觉传感器通用性好得多,但是国内有很多在做嗅觉领域的开发公司,在未来的三到五年,也是对于机器人来讲非常重要的能力,也会逐渐补齐。
数据的稀缺与仿真的突围
媒体:今年上半年很多关于机器人的运动会,从表现看,灵巧“手”还存在一定的问题,它真正的技术点在哪里?他山科技在研发过程中遇到最大的挑战是什么?
马扬:您看到机器人在运动会上的一些操作,有一些行为可以完成,但不见得每次都可以完成,或者说每次可以完成得好,这是第一个。第二个,它不见得比人完成得好。
这里有个很重要的过程,它要做训练。当我们把一个机器人造出来的时候,就像我们人刚生出来一个小孩,但这个小孩生出来就是一个成年人。他具备了一定的智商,但是他没有学习过,没有这样的能力。
学习最主要的是什么呢?到真实的应用场景里去做学习。我们从传统汽车到智能汽车,经历了5到10年的时间,但对汽车的智能感知的数据,随着汽车出售可以一直采集。
但我们现在很少有机器人真正的走入C端,去做数据采集和训练。现在的机器人,在产线也好,在商用端也好,去做数据采集,反而是机器人公司要给客户端付费,或者用其他条件去交换,这就是现在技术最核心的卡点。
这是一个挑战,也是一个巨大的机会。
我们在上半年做的很重要的事情就是做仿真,一个是在MuJoCo平台搭建基于触觉仿真训练框架,大家早期训练的时候就可以在仿真端做训练。
8月份我们刚跟英伟达达成了合作,在Isaac Sim里面,我们成为了英伟达首个触觉感知方面的合作伙伴,在仿真端拿数据比现实端更降本增效。
我们可能再有半年到一年的时间,就可以到场景端就去应用,更好地获得真实数据,良性循环驱动起来,投入使用。
媒体:现在机器人都是要靠人操作的,什么时候可以让它自己可以独立地思考?
马扬:已经在很多环节可以做到了。我们在机器学习里通常用到两种学习,一个叫模仿学习,一个叫强化学习。人去操作它的过程就像模仿学习。
举一个简单的例子,人学写字的过程中,最早会有家长握着你的手,你写哪个字,哪个笔画,我就握着你的手运一下笔,这就很像现在机器人做学习的时候,用做遥操作控制它学习。
当这步我们做到差不多的时候,下一步就可以让机器人自己来学习。小孩可能在学了一段时间之后,他就自己开始写了。写完两三个字,你给他打分,你说这个很好,接着按这个往下写,或者说这个写错了,你要纠正,按好的方式写,这就是强化学习。
强化学习就是不管你做得好与不好,我告诉你结果,并且你做得好我有奖励。这样就让它可以做更多自主的事情。学习的过程前面可能会很慢,但越学越快。学到一定程度将来会超过人,因为它的上限是比人快很多的。
举个例子,矿泉水作为一个相对比较通用的东西,我们经常说,能不能在酒店端给人递一瓶水,像这样的动作在机器端已经可以做得非常好,在无监督的情况下,我们用视触融合的方式找到这瓶水,把它拿起来递给人,成功率已经到99.99%。也就是说,一万次里面失误在1次以下,做到了这样的水平。
对于机器人来讲,它可能不像人,你抓完矿泉水瓶,看这个和话筒差不多,我用同样的姿势去抓就能抓得很好。你要抓话筒,它可能要再去做学习,但是一旦学会了之后是很好复制的。
媒体:怎么样让这个具身智能变得真正聪明,就是从感知到决策我们还面临哪些核心的挑战?
马扬:我刚才没有更多讲一个内容,对于人来讲,人的大脑跟小脑背后有一个很好的融合模型,操作起来是很快的。
对于机器人来讲,视觉跟触觉应用的模型是不同的,所以怎么把触觉跟视觉放在一起,让机器人学习、感知、计算、决策再到控制,这是大家都在摸索、探索的过程。
过去一两年大家都讲是VLA模型,然后说要把触觉加进来,是VTLA。大家在早期想,是不是能做一个大的模型,把这些数据全部都接收进来,然后看是不是有一个很好的成功率。
后来发现这里有比较大的难点,第一个是数据量太大了,第二个是触觉端的东西不像视觉端,比如我要跟您对话,机器人没准备好的时候可以等,等准备好再回答您,可能是两秒、三秒,这个时长是可以接受的。
但如果在干活的时候,我拿一个水瓶,在这个过程中摇晃到这个水瓶可能快掉下来了,你不能说我也等,等两三秒这个任务可能已经失败了。
所以我们后来处理触觉数据,会反过来想人是怎么操作的。比如您跟我对话的过程中,我要去拿一瓶水,可以两个动作同时做,也就是说触觉在做执行的过程中,它的行为是只靠触觉端的小模型去完成的。
那么在整个VTLA的大模型下,我们把它做分层,把触觉跟视觉的模型分开来做,触觉在前端,任务做的过程只给大脑输出一些有效语义的数据,把这个数据去稀疏化。在模型内部分层后,可以有效提升解决问题的速度,以及数据处理的算力能力。
通往“类人智能”的漫长路线
媒体:机器人什么时候可以像电影里面,有人类的智力,服务于我们?
马扬:我们这代人,等到养老一定是机器人来服务的,这是非常能乐见到的。
机器人做到通用泛化的程度,行业里面乐观的看法大概觉得是5到10年,相对觉得要长一点的,就是20年,但是一定是在我们这一代能发生的事情。
就像刚才讲的机器人要做不断的学习,通过了学习人、模仿人的过程,一旦超过人的起点之后,将来做得比人更好,是一个自然而然的事情。
媒体:到了这个阶段后,人类会做什么呢?会被它取代吗?
马扬:这是一个比较哲学的问题了,每个人也有不同的看法。
但是所有做人工智能方向的人,对这件事情是很乐观的,机器人是做人不想干的活,比如你不爱干的繁重的体力工作,或者经常要打扰你思考的体力工作。
人做什么?我们人最喜欢做的事情还是去思考,我们整个社会的发展,是靠人的想象力跟演绎能力来推动。