四木专访|「灵宇宙」顾嘉唯:半年完成三轮融资,携新一代智能硬件OS亮相CES

全文6373字,阅读约需19分钟,帮我划重点

划重点

01成立仅半年的初创公司「灵宇宙」完成了三轮融资,推出针对儿童的AI学习伴侣Ling!

02Ling!采用多模态技术,通过拍摄、理解、交流等方式,为儿童提供即时的学习机会和情感陪伴。

03除此之外,「灵宇宙」还研发了自主研发的LingOS系统,将物体、动作、空间和行为等时空数据源统一整合。

04目前,Ling!已在CES展厅亮相,未来将覆盖学前儿童和青少年阶段,提供全年龄段的产品规划。

05顾嘉唯表示,公司将继续聚焦高价值场景和垂类爆款产品,以实现机器的灵性。

以上内容由腾讯混元大模型生成,仅供参考

智能硬件的世界似乎很久没这么热闹过。


在2025年的CES上, 数千家企业正带着各种各样的AI眼镜、机器人、可穿戴设备等产品对外亮相。


在琳琅满目的产品中,我们看到一款针对儿童的AI硬件——Ling!出现在CES展厅。


图片

(Ling!展示)


Ling!,是一款专为3~12岁儿童打造的便携式AI学习伴侣。


从展示中能看出,它希望通过拍摄、理解、交流等方式,为儿童提供即时的学习机会和情感陪伴,成为孩子们探索世界、学习知识的伙伴。


图片

(Ling!展示)


这款产品背后,是一家成立半年就一口气完成三轮融资的初创公司——「灵宇宙」。


「灵宇宙」创始人顾嘉唯告诉我们,成立于2023年的「灵宇宙」,目标是打造新一代的硬件OS,让万物在AI的加持下充满“灵性”。


目前,它会先从家庭场景的消费级智能产品切入市场。Ling!就是其一。


图片


不仅是CES期间,过去一年Ray-Ban Meta、Figure、Plaude、Ola Friend、AI Pin、Rabbit R1等一系列形态各异的智能硬件,争相在全球面世。


但2022年之前,智能硬件已不算最被人追捧的风口。上一个用AI抢夺通用家庭入口的故事,还停在智能音箱大战。


在顾嘉唯看来,这些来来回回的AI"风口",背后是一个个产业周期。


而在智能硬件领域做过产品研发也做过投资的他,恰好是穿越过这些周期的人。


图片

(「灵宇宙」创始人 顾嘉唯)


创立「灵宇宙」前,顾嘉唯的智能硬件生涯已经持续10年之久。


他的职业第一站是微软研究院,又在28岁进入百度人工智能研究院、入选百度“少帅计划”,在这里主导了Baidu Eye、DuBike、DuLight 等前沿AI产品的研发。


2016年后,顾嘉唯褪去技术人的身份,一边在A股上市公司东方网力进行机器人的投资,一边担任AI创企「物灵科技」的CEO。


这段创投结合的日子里,他先是花20亿,投资了包括全球最知名陪伴机器人Jibo、 Rethink Robotics、KnightScope在内的多个产品。


后来,他又通过「物灵科技」这家公司孵化出国内第一批儿童绘本机器人——Luka,和一众早教机争夺儿童教育市场。截至目前,Luka在18个国家售出近千万台。


2023年,顾嘉唯迈向了创业的第二站——在大模型风潮中成立「灵宇宙」。


图片

(顾嘉唯和Ling!在CES2025现场)


或许是Luka主打的儿童绘本功能太接地气,顾嘉唯曾经在大公司做过的AI项目,当时更像是一种对前沿科技的探索。


最有名的例子是BaiduEye,这款诞生于2014年的智能穿戴设备,那时的定位是成为电影Her中一样的AI助理。


这类产品概念前沿,大多在惊艳亮相后淡出公众视野,和后续卖出将近1000万台的Luka儿童绘本机器人,看似八竿子打不着。


但顾嘉唯告诉我们,BaiduEye、DuBike虽然是属于那个周期的尝试,却启发了他后续的创业方向。


“当时大家已经看到,智能硬件产品只有像机器人一样,具备完整的感知、决策和控制系统,才可能实现真正的‘智能’,而在个人To C场景中,感知、决策和控制系统的实现都更为复杂。”他说。


到了现在,“市场上的很多公司,都聚焦控制层的问题。但从效果看,感知和决策层会更为重要。”顾嘉唯补充,要让这两层更智能,单纯从文本入手智能有限,多模态一定是趋势。


通过多模态的产品设计,充分吸纳真实世界的数据,使机器人的感知和决策层更智能,让机器具备察言观色的能力、有灵性,是顾嘉唯一直坚持的目标,也是「灵宇宙」名称的由来。


另外一个和百度、第一代Luka时期不同的因素是,在这一次由大模型带来的AI周期中,顾嘉唯看到了让“感知系统”精度更高的可能性。


更精准的“关系算法”和更强大的“交互行为算法”都是大模型时代的技术拼图。


再具体拆解,多模态视频数据的混训,能够让机器人的感知、决策系统更理解用户的意图,涌现出自然的情绪感情甚至逻辑。


并且,通过Fine-Tune的生成式模型,可以自动生成多模态时序任务,半预判地进行环境感知,降低机器人任务和动作的不可控。


顾嘉唯正尝试用这种方式,造就一个能让机器察言观色的LingOS系统。


在达成这一目标之前,「灵宇宙」乃至由李飞飞扛起的「空间智能」派,都需要解决真实世界的感知问题。


好在此前顾嘉唯已经带着Luka跑通了技术—产品—商业化—产品升级的闭环。


这一次面对更大的真实世界感知需求,「灵宇宙」已经储备了多款产品,希望为用户提供机器人服务的同时反哺LingOS,让系统更有“灵性”。


落在具体动作上,近期「灵宇宙」和Luka结合,推出了新款AI学伴产品,有客户已经完成采购。


「灵宇宙」这次带去CES的Ling!,同样集成了自主研发的 LingOS 系统。通过 4D 空间交互(AI Spatial Interaction)将 AI 与现实世界无缝连接,为儿童提供沉浸式的互动学习体验。


图片


据介绍,Ling!的核心优势在于将“世界是教材”的理念融入每位孩子的学习过程,为他们提供专属的“超级学伴天团”。


这里的“超级学伴天团”,指内置的智者先贤、学科名师、虚拟IP角色。


他们,不仅让Ling!覆盖了科学、生物、英语、历史、地理、文学等多学科领域,还能通过角色演绎、互动故事、轻游戏等形式,为孩子们打造更沉浸的互动学习体验,在真实世界中随时“有伴”。


图片

(LingMate内置多个AI角色和知识库,陪伴孩子学习)


顾嘉唯举例告诉我们,AI“达尔文”,能让孩子在户外探索中“有伴”。


在实际场景中,这个AI达尔文不仅能讲解生物学知识,识别8000多种动物、2万多种植物以及数千种花卉和果树,还能结合思维链层层提问。


从效果看,它引导孩子放慢脚步,仔细观察,探究生物的各个部分和用途,思考生物系统的运作方式。


这种方式,可以构建孩子的底层思维能力,培养好奇心和探索精神。


图片

(Ling!展示)


透过产品,顾嘉唯总结,他笃信空间智能,一直希望让世界变成操作界面,万物皆为操作对象.exe。


LingOS系统能够将物体、动作、空间和行为等时空数据源统一整合,将一切转化为空间内的交互单元,真正实现“空间即学习”的理念。


这次CES开始之前,「四木相对论」和顾嘉唯进行了一次对话。


在这间被各种智能硬件铺满的会议室中,他向我们讲述了大模型对智能硬件的颠覆性作用,和「灵宇宙」的起源及进展。


以下是「四木相对论」和他的交流内容:


让机器有“灵性”,必须做到空间交互智能

四木相对论:这一次成立的新公司叫「灵宇宙」,这个名称背后有什么含义?


顾嘉唯:我们一直有一个努力的方向,就是探索机器和AI的“灵魂”。“万物有灵”是我们追求的理念,“灵”也是我们公司名字。


“灵”体现的是机器“醒来”,开始解读人的意图,像人一样去表达。


从2016年我决定创业开始,就想把机器的这一层主动交互和灵性做出来,这件事情是没有变过的。


要实现这个“灵”,我们一直在做解读和解构物理世界的事情,也就是对物理世界的理解。


比如之前在百度。最早我们做小度机器人,就是把身体变成了一个可操作的空间;做Face U人脸识别的项目,就是把第三视角的交互变成一个可理解空间;又或者做一个可穿戴的设备,可以让机器看到人的第一视角,第一视角的空间也能被理解。


后来这种机器对空间的理解能力,被李飞飞提出的“空间智能”概括,也就是在文本、语音之外,对视觉、三维空间乃至时序信息的综合理解,同时也能完成与物理世界交互。


我们之前在「物灵」做了Luka,卖了接近1000万台,服务了400万个家庭,也是对这个理念的实践。


它的核心是增加物理世界交互。比如你可以通过手指的运动,指定它的阅读内容,也通过一双可以变化神情的“大眼睛”来表达阅读方向和情绪。


Luka给行业带来一些好的定义。所有的学习机、故事机、早教机全都是带摄像头交互的。也就是说,我们开创这个品类之后,它就变成一个明牌了,都觉得这个东西很好。


不过当时的Luka距离真正的“灵性”还有距离。灵性是个综合的体验和表达,如果能够把物理世界的理解和与人的交互都做到下一个层级,它就具备了灵性的能力。


四木相对论:这里的“下一个层级”具体怎么理解?


顾嘉唯:从效果上来说,我认为主动交互非常重要,机器能察言观色,有及时反馈,有情感连接,能让用户能保持在一个动、舒适的状态。


从路径来看,很可能是基于LLM大模型对意图理解的升维,通过IOT和传感器收集全天候数据,实现场景智能,进行空间智能,Agent实现自动化执行,最终实现属于每个人的Personal AI,个性化人工智能。


从底层模型结构上看,这体现的是物件、空间、动作、行为之间的关系模型。


要做到这一层,机器的环境感知和情感表达是不可缺少的环节,能准确快速地识别用户意识,主动与用户做出交互。类比机器人,就是“感知系统”、“决策系统”。


如果用更为专业的术语来讲,我们称为“关系模型”和“交互大行为模型”。


上一个时代在做类似的事情时,包括我在内的从业者基本都遇到挑战。


首先,当年的AI能力有限,每一个行业,CV、NLP、 TTS等相关技术都是一个单独的技术栈,产品层面没法做统一多模态,这就使得最后的终端产品无法实现“察言观色”的智能。


其次,数据飞轮的效应,必须建立在对用户行为、用户周围的环境的共同建模上。每个行业如果不自己真正去磕一个硬件闭环,很难做到数据闭环,也很难通过产品迭代将用户场景和需求价值打透。


相对论:也就是说,这一次大模型让“灵性”更容易实现。


顾嘉唯:从机器人的“感知、决策、执行”三大要素去拆解,可能更容易理解“灵性”来自于哪里。


感知是信息数据的输入,是对物理空间诸多信息的理解与认识。这其中就包括文字、语音、图像、视频等等数据模态。决策是对感知的内容进行分析和处理,进而发出指令,形成任务,指导机器人的行为。


在上一个周期中,每一个模态如听觉、视觉、触觉都需要用CNN、RNN的模式,分别去做感知,基于rule-based(机器按照人的定义确定的一个映射,输入问题的数据,输出一个问题的答案)写规则,然后统一决策去做实现,效率低,泛化也比较难。


我们当时投的Jibo,是请了百老汇的人来写脚本,写了10万个对子。然后我们再把对子用rule- based实现。


现在有了大语言模型,以往用rule-based去写的东西,变成Transformer的底层。视觉数据加入模型混训之后,机器有了统一的多模态感知能力,也有了涌现情感表达和输出的能力。通过大模型和Finetune的生成模型,可以实现高级任务的情感表达,并自动生成多模态时序任务。


在环境感知的方面,大语言模型整体能力提升,尤其是多模态模型,增强了对环境的理解,可以提升用户意图预判的准确性,这是最大的一个变化。


在决策方面,首先之前基于rule-based数据库的决策机制转到了类似大脑决策的生成模型,最后调用大模型的Agent去完成任务输出。


再往底层是小脑和执行,这一部分是目前多数人形机器人在“卷”的部分。


而我们更多是做更上一层,也就是感知、交互以及大脑侧的Agent,这也是我们和其他人形机器人公司最大区别的地方。


类似于自动驾驶行业,以往都是基于Rule-based, 要经过感知、决策、控制等环节。特斯拉采用了“端到端”的方案。


今天,AI硬件和具身智能很可能也会经历类似的阶段,有机会从原来的意图理解能力,直接做到对环境的预感知和预决策,甚至直接做到决策。


我们把这一套感知—决策模型系统定义为“ LingOS(灵OS)”。我们希望这是一种通用的能力,可以在多种垂类场景中使用。


四木相对论:对「灵宇宙」来说,现在做这件事的壁垒是什么?


顾嘉唯:机器人的“灵性”必须要做到空间交互智能,而感知是实现空间交互最重要的环节。在这个环节中,数据积累又是最核心的。


类比特斯拉做自动驾驶的视觉方案,本质其实是先完成司机这一人物行为与真实世界互动的数据构建,然后将数据重新标定后,加入模型训练当中。


这个路径复制在具身上,就有一个最大的问题,就是时效成本太高了。具身机器人的数据标定要通过机器背后操作人完成各个动作才能构建。具身机器人要执行的任务非常发散,几乎不可能穷举所有任务来进行数据的标定。


所以我们的思路是,铺出足够量级的消费终端和AI硬件,来换回数据流的闭环,这数据流有三种。


第一种就是真机抛进去,让机器去和人交互,完成数据的闭环。这主要是第三视角的数据,就是机器人眼中,人在做各种任务和各类交互时的反应。


第二种是第一视角的数据流,即人类与物理世界直接交互的面对面数据。这种数据,可以通过一个可穿戴式陪伴式设备获取。


第三种数据是视频数据混训的内容,这里体现在情感表达能力以及进一步排除鸡尾酒效应的能力。


这些数据之外,还有一个关系算法的链接,就是让机器与用户存在长期互动关系,有记忆能“懂你”。


聚焦高价值场景和垂类爆款产品


四木相对论: 和之前几次的周期对比,你觉得现在AI硬件公司的想象力在哪里 ?


顾嘉唯:宏观上来看,随着LLM多模态大模型能力显著加强,AI溢出到硬件端的Embodied AI,人机交互的智能将接力语言模型成为最重要的AI的落地方向。泛具身智能EAI进入家庭,是确定性的机会。


目前人形机器人为代表的Physical AI已经得到资本关注。但是在整个市场投入大量金钱卷人形机器人能力层,还无法Match到家庭场景需求,也难做到低成本的今天,是一个属于空间交互层的窗口期。这个方面,反而有希望先在交互和场景化能力上弯道超车。


历史上出现过很多AI硬件,大多数不可能在家里变成下一代的计算终端的交互设备。


比如,扫地机是当前的热门品类。但扫地机永远不会和人交互,基本上都是人出门,它再出来工作。也就是说,它永远不会涉及到和人交互的数据。以前的智能音箱等也有类似的问题。


扫地机只解决了5000块钱阿姨的一小部分任务,家庭中还有一些更高客单价的产也有机会被AI产品取代。比如,请育儿嫂、月嫂等场景比请清洁阿姨的价格要贵多了,教培老师更贵。所以,我们所在的教育行业的天花板很高。


只要技术越来越好,这些以前只是没有好产品供给的场景,就有机会做大。


今天其实技术明显又到了下一个阶段。但很多产品我们拿到手体验一下,发现它的响应速度和效果还不能处理任务复杂。


整体来看,还是需要多模态产品。一个人本身在物理世界已经够累了,让用户持续语音主动去讲话,门槛太高,用户的能耗太高了。


四木相对论:从Luka到「灵宇宙」,你一直专攻教育领域,为什么会持续选择这个方向?


顾嘉唯:之前我投资了Jibo。当时把它落地到一些教育场景之后,发现培训英语、做对话很适合。然后发现,用它来看绘本、做交互,也就是用在物理世界的桌面教育场景很适合。所以,我才把Luka收敛到这里。


Luka也有自己的创新。我们其实是定义了一款多模态、带视觉摄像头的交互机器人,这是以前没有的。后续所有的早教机、学习机,其实都可以算Luka的Copy。


当时能得到追捧,也是因为我们本来就要切到有场景和足够高频需求的市场里。比如讲故事,我们认定人类这几千年唯一没有变的事情是,女人出去摘果子,男人出去打猎回来,大家给孩子讲故事,这是没有变的。


教育赛道的天花板非常高,它其实是交互属性丰富性更密集的一个赛道。尤其在国内这样一个教育市场上,会涌现出来学习机。


也就是说,一个项目不收敛很难真正变成一个爆款产品。我们当时把Jibo收敛到Luka,还有很多公司把Jibo收敛到智能音箱,也都逐渐落地了。


技术的边界需要收敛,需要时间的迭代,最后把一些垂的东西磕透。


当时我们做百度自行车,也说可以运菜、遛狗、驮东西,但其实这个功能就是简单的平衡和跟随。那个年代用CNN、RNN分开训练效率很低,而且决策也基本很难做到。智能自行车这个项目,启发了后面比如平衡车、四足机器狗、球童车的场景。大家后来都落地了,所以还是要收敛。


在一些垂直领域,一个场景就值得有一款独立的爆款。尤其是有了AI之后,一款好的硬件可以承载着所有AI的能力,实现10倍传统模式的体验。


举例翻译这个场景。以前在手机出现之前我们要看新华词典,后来在谷歌上查缩短了10X时间。


在我们的Ling!上,老师的听力课不仅完成翻译,还能举一反三地去提更多的建议和知识,记笔记的环节都省了。对用户来说,这可能就是10X的用户体验。


四木相对论:从产品和场景的角度,现在「灵宇宙」的规划是什么?


顾嘉唯:目前来看,我们产品线专注做家庭场景,针对不同的年龄阶段都有不同的产品规划,并不是只有儿童的产品。


在学前儿童阶段,我们有Luka这类故事机或者说绘本阅读机器人,对于青少年时期的孩子,我们也有探索性陪伴机器人产品,最终会全年龄段的覆盖。


一旦有充足的数据,产品可以具备这样的能力:对孩子的情绪有识别,有主动推理的认知能力。它就和一个很懂你的助理或者一个育儿嫂一样,可以察言观色。


所以,我们的产品体验就变成了有察言观色,有及时反馈,还有情感连接。一个机器的交互体验,能够让人始终处在一个被动但很舒适的状态。这是我们最终要奔向的一个方向。


四木相对论: 「灵宇宙」的产品和市场节奏是怎样的?


顾嘉唯:现在灵宇宙核心定义的这套算法和技术是我做了很多年的。我很看重LingOS,设备的话,我希望最重要的是主控设备是自己的,但同时也可以赋能各家。


现阶段我更在意,原来的市场能不能用新产品发挥出稳定的结果。现在模型的成熟度还没有好到说能够交付一个超预期的体验,但如果控制好预期是有机会的。


从第一视角的数据来看,需要先打磨出好的软件体验,再去让用户互动才有意义。


如果现在的软件体验,还没有办法打磨出这样的交互体验,那么体验和数据还是断的,不是持续的。这样的话,就算产品交互体验已经有价值,可以推向市场,但数据价值的厚度还不够。