他山科技马扬：2-3年，机器人触觉可以跟人类感知平齐 | 智车星球

阿宝说车

2025-11-07 09:02发布于广东汽车领域创作者

问AI · 机器人触觉感知如何重塑餐饮加工业格局？

“让机器人把事情干好，比像人更重要。”

作者|王蕊

编辑|西子

一个机器人公司，放了十几个人在武汉研究怎么剥龙虾！听起来是不是有点魔幻而搞笑？

但他山科技不是在“玩”，而是在“练”。他们派出专门团队扎进湖北潜江，每天面对着成筐的小龙虾，研究“头尾怎么分离得更稳”、“虾肉怎么取得不碎壳”，在高温、高湿、有粘液的环境中一帧帧录制、建模、仿真，试图用机械手，复刻人类三指掐虾尾的精细操作。

这个事情，他山科技已经在武汉专门组建团队，和湖北省、潜江市的政府及企业开展合作。

他们的目标不是让机器人跑步、跳舞，而是让机器人能“干活”。

在“聚合智能产业发展大会2025”上，他山科技CEO马扬反复强调，“让机器人把事情干好，比像人更重要。”

△他山科技CEO、联合创始人马扬

他山科技扎在机器人触觉感知领域，主打“递水不掉地、剥虾不碎壳”的技能包训练，把芯片和解决方案做到指尖，把仿真做进英伟达，还在湖北建起专门团队研究小龙虾头尾分离。

成立于2017年，他山科技经历过机器人行业遇冷和爆火的周期，比起外界对机器人的过度关注，他们更关心一件事：机器人，能不能在没人操控的情况下，没有延迟地把一瓶水递到人手里？

马扬不许产品失败率超过1%，因此只要递水洒了一次，就没人再用第二次。虽然现在还做不到，但他相信：再过2、3年，触觉感知就能做到和人类平起平坐。

他也相信，我们这一代人老去时，身边照护的，一定是机器人。

在大会间隙，马扬接受了「智车星球」等媒体的采访，他谈到了他山科技为什么专注在触觉芯片这个细分市场，机器人为何需要触觉、如何在仿真里“练技能包”，为什么在湖北建团队攻坚剥小龙虾。

触觉是重要的感知战场

媒体：为什么机器人需要触觉？哪些机器人对触觉的需求是最强烈、最迫切的？拥有了触觉之后，机器人的体验可以带来哪些提升？

马扬：现在普遍会把人形机器人定义为具身智能机器人。

具身智能是在边缘端会产生感知的数据，需要在边缘端做计算、决策，再到执行的过程。对于人来讲，如果手端没有感知的能力，就像戴了一个厚厚的隔热手套操作，能力就将大幅度下降。

机器人对人的意义，是给人干活的。人干活需要一双灵巧的双手，就需要触觉传感的能力做支持。

触觉感知跟视觉感知不同，视觉、听觉集中在头部，大脑支持它运算。而触觉是分布式结构，皮肤是触觉器官，最核心干活的是双手。很多手做的事，是不经过大脑的。比如摸到尖的东西就躲开，递水时手会跟着水晃动调整，靠的就是手端的神经元加小脑决策。

这就是机器人为什么需要触觉感知。

原来工业产线上已经用了非常丰富的自动化设备，但没解决“柔性”和“泛化”的问题。比如汽车产线90%已自动化，但把零部件从包装箱里拿出来，再到把塑料套去掉的工作，自动设备难以胜任，因为动作每次都不一样。

再比如，把软的线束端子对端子的插进去，这种插拔的过程往往也很难解决。

媒体：公司成立是2017年，已经经历了一个漫长的时间了。后面可见的还是会比较漫长，因为整个具身产业的前景和发展的情况，我们也不好预知。咱们对于商业化的路径是怎么考虑的？

马扬：我们刚成立的时候，是看到那一代像波士顿，像国内优必选，这样的先锋企业做机器人，我们那时候就说，机器人将来真的能实现工业化、商业化，走入到家庭，它要干活。

对于具身来讲，我们经历了过去两三年的寒冬，又到过去两三年的快速发展期，整体还是比较乐观的。对于他山来讲，拿到的订单、销售额是去年十几倍的增长速度。

我们说未来是一个漫长的过程，是因为最后的市场是非常大的，它会整个把人在生产力上的东西整体颠覆一遍，肯定是一个数千亿级以上的应用市场。

对于其他，无论是工业端、商业端还是家用端，先找对人比较繁重，或者人不愿意做，或者这个东西对机器来讲容易学习，有6个月到一年的时间，就可以学到跟人差不多能力的赛道上去做应用。

比如说在物流机器人上，我们在终端具备对不同纸盒的柔性识别，并且拿起来的能力，还能送到你的家门口，或者是到一个商业楼宇里面去。

我们在湖北在做一个案例，已经训练了机器人预处理小龙虾的雏形方案。等到明年，送上餐桌的小龙虾可能就是机器人预处理的。

小龙虾的头尾分离，其实是不太好做的，人剥小龙虾，是一个“拧+感知”的过程，不是直接拔下来，而是拧到“咔嚓”一下，正好分离。这就是人手感知系统在工作的表现，传统机器就是强硬把它拔掉，肉跟着头走了，效果不是很好。

2023年湖北省就已经立项，我们进来后小试，效果非常好。目前团队已经招募湖北本地华科、武大毕业生，组建了十几个人的团队，计划今年年底完成模型训练，并推进小批量试验，明年应用到产线当中，后年基本能实现大批量的应用。

从成本和商业价值角度看，当地小龙虾加工厂一年人工投入就上亿，如果机器人替代只需要2亿元设备，分5年摊销，也只要4-5千万，成本省一半。而且湖北此类企业有5、60家，技术成熟后还能向江苏等其他省份推广，复制性很强。

媒体：触觉是不是一个特别细分的市场？它的空间大概有多大？跟触觉同等的还有别的领域的芯片吗？

马扬：触觉在机器人领域是一个细分的赛道，在感知方向上，我们原来比较熟悉的是视觉。因为视觉不仅应用在机器人领域，还广泛应用在其他人工智能领域。所以到机器人端的时候，能力已经达到了跟人类似水平。

为什么触觉在过去两年被重视？具身智能的核心，在于机器人在边缘端获得足够多的感知信息，人在干活的过程中，绝大多数信息是来自视觉和触觉的融合。

比如说现在咱俩对话，更多就是在VLA的模型下，视觉跟语言驱动。但是如果我说“你把这个话筒拿起来”，或者“你把这个水端起来”，这个动作就是靠视觉+触觉的协同了。

从去年讲具身，到今年讲场景，让触觉的需求变得更具体，更急迫。再往下一步说，人的五感中，可能味觉是机器人最不需要的，视觉、听觉已经达到跟人类似的水平，触觉是现在最有希望，也最必要补齐的一块。大概两到三年，触觉在感知能力上就可以跟人平齐。

触觉是在所有感知端里，唯一跟客观世界有交互的方式。我们看一个东西、听一个东西，并不会改变客观世界。但是当你触觉操作的时候（抓、放、推），它就会改变。

举一个例子，人脸识别的软件可能（有时候需要）看三次（才能成功），识别率只有60%多，你也能忍。但如果说机器人递一杯水，递3次水有一次就掉在地上，你一定是不能接受的。别说60%多，可能99%，100次里有一次失误，你也不能接受。

这也决定了，触觉在商用端的成功率要做到99.7%，而在工业端也要达到99.97%。这也就是为什么说，触觉训练的过程要更长。

再往下就是嗅觉，嗅觉其实更难一点，人的嗅觉能力，要比我们能看到的，嗅觉传感器通用性好得多，但是国内有很多在做嗅觉领域的开发公司，在未来的三到五年，也是对于机器人来讲非常重要的能力，也会逐渐补齐。

数据的稀缺与仿真的突围

媒体：今年上半年很多关于机器人的运动会，从表现看，灵巧“手”还存在一定的问题，它真正的技术点在哪里？他山科技在研发过程中遇到最大的挑战是什么？

马扬：您看到机器人在运动会上的一些操作，有一些行为可以完成，但不见得每次都可以完成，或者说每次可以完成得好，这是第一个。第二个，它不见得比人完成得好。

这里有个很重要的过程，它要做训练。当我们把一个机器人造出来的时候，就像我们人刚生出来一个小孩，但这个小孩生出来就是一个成年人。他具备了一定的智商，但是他没有学习过，没有这样的能力。

学习最主要的是什么呢？到真实的应用场景里去做学习。我们从传统汽车到智能汽车，经历了5到10年的时间，但对汽车的智能感知的数据，随着汽车出售可以一直采集。

但我们现在很少有机器人真正的走入C端，去做数据采集和训练。现在的机器人，在产线也好，在商用端也好，去做数据采集，反而是机器人公司要给客户端付费，或者用其他条件去交换，这就是现在技术最核心的卡点。

这是一个挑战，也是一个巨大的机会。

我们在上半年做的很重要的事情就是做仿真，一个是在MuJoCo平台搭建基于触觉仿真训练框架，大家早期训练的时候就可以在仿真端做训练。

8月份我们刚跟英伟达达成了合作，在Isaac Sim里面，我们成为了英伟达首个触觉感知方面的合作伙伴，在仿真端拿数据比现实端更降本增效。

我们可能再有半年到一年的时间，就可以到场景端就去应用，更好地获得真实数据，良性循环驱动起来，投入使用。

媒体：现在机器人都是要靠人操作的，什么时候可以让它自己可以独立地思考？

马扬：已经在很多环节可以做到了。我们在机器学习里通常用到两种学习，一个叫模仿学习，一个叫强化学习。人去操作它的过程就像模仿学习。

举一个简单的例子，人学写字的过程中，最早会有家长握着你的手，你写哪个字，哪个笔画，我就握着你的手运一下笔，这就很像现在机器人做学习的时候，用做遥操作控制它学习。

当这步我们做到差不多的时候，下一步就可以让机器人自己来学习。小孩可能在学了一段时间之后，他就自己开始写了。写完两三个字，你给他打分，你说这个很好，接着按这个往下写，或者说这个写错了，你要纠正，按好的方式写，这就是强化学习。

强化学习就是不管你做得好与不好，我告诉你结果，并且你做得好我有奖励。这样就让它可以做更多自主的事情。学习的过程前面可能会很慢，但越学越快。学到一定程度将来会超过人，因为它的上限是比人快很多的。

举个例子，矿泉水作为一个相对比较通用的东西，我们经常说，能不能在酒店端给人递一瓶水，像这样的动作在机器端已经可以做得非常好，在无监督的情况下，我们用视触融合的方式找到这瓶水，把它拿起来递给人，成功率已经到99.99%。也就是说，一万次里面失误在1次以下，做到了这样的水平。

对于机器人来讲，它可能不像人，你抓完矿泉水瓶，看这个和话筒差不多，我用同样的姿势去抓就能抓得很好。你要抓话筒，它可能要再去做学习，但是一旦学会了之后是很好复制的。

媒体：怎么样让这个具身智能变得真正聪明，就是从感知到决策我们还面临哪些核心的挑战？

马扬：我刚才没有更多讲一个内容，对于人来讲，人的大脑跟小脑背后有一个很好的融合模型，操作起来是很快的。

对于机器人来讲，视觉跟触觉应用的模型是不同的，所以怎么把触觉跟视觉放在一起，让机器人学习、感知、计算、决策再到控制，这是大家都在摸索、探索的过程。

过去一两年大家都讲是VLA模型，然后说要把触觉加进来，是VTLA。大家在早期想，是不是能做一个大的模型，把这些数据全部都接收进来，然后看是不是有一个很好的成功率。

后来发现这里有比较大的难点，第一个是数据量太大了，第二个是触觉端的东西不像视觉端，比如我要跟您对话，机器人没准备好的时候可以等，等准备好再回答您，可能是两秒、三秒，这个时长是可以接受的。

但如果在干活的时候，我拿一个水瓶，在这个过程中摇晃到这个水瓶可能快掉下来了，你不能说我也等，等两三秒这个任务可能已经失败了。

所以我们后来处理触觉数据，会反过来想人是怎么操作的。比如您跟我对话的过程中，我要去拿一瓶水，可以两个动作同时做，也就是说触觉在做执行的过程中，它的行为是只靠触觉端的小模型去完成的。

那么在整个VTLA的大模型下，我们把它做分层，把触觉跟视觉的模型分开来做，触觉在前端，任务做的过程只给大脑输出一些有效语义的数据，把这个数据去稀疏化。在模型内部分层后，可以有效提升解决问题的速度，以及数据处理的算力能力。

通往“类人智能”的漫长路线

媒体：机器人什么时候可以像电影里面，有人类的智力，服务于我们？

马扬：我们这代人，等到养老一定是机器人来服务的，这是非常能乐见到的。

机器人做到通用泛化的程度，行业里面乐观的看法大概觉得是5到10年，相对觉得要长一点的，就是20年，但是一定是在我们这一代能发生的事情。

就像刚才讲的机器人要做不断的学习，通过了学习人、模仿人的过程，一旦超过人的起点之后，将来做得比人更好，是一个自然而然的事情。

媒体：到了这个阶段后，人类会做什么呢？会被它取代吗？

马扬：这是一个比较哲学的问题了，每个人也有不同的看法。

但是所有做人工智能方向的人，对这件事情是很乐观的，机器人是做人不想干的活，比如你不爱干的繁重的体力工作，或者经常要打扰你思考的体力工作。

人做什么？我们人最喜欢做的事情还是去思考，我们整个社会的发展，是靠人的想象力跟演绎能力来推动。

今年北京在做人工智能通识课，我们去给中小学生讲的时候说，我们一辈子要有很强的好奇心和想象力，那会支持人度过丰富的一生。当未来的想象力不仅可以通过人，也可以通过更多的机器人来实现的时候，这应该是人类下一步高速发展更好的动力。