全球最火 AI 硬件创始人回应一切:在 R1 上能做的许多事情,你无法在 iPhone 上做到

全文21638字,阅读约需62分钟,帮我划重点

划重点

01Rabbit智能音箱创始人Jesse Lyu表示,他们的技术目标是让智能体在网上自由运行,不受人类视觉设计的限制。

02然而,Jesse Lyu指出,目前智能音箱市场仍受限于与各种公司的API交易、版权交易等挑战。

03他强调,尽管Rabbit团队资源有限,但他们将继续推出新产品并快速适应技术变革。

04对于未来形态因素,Jesse Lyu表示,他们将继续探索各种可能性,如眼镜等。

05最后,Jesse Lyu坦言,他们作为一个初创公司,将始终面临竞争对手和潜在的法律问题。

以上内容由腾讯混元大模型生成,仅供参考

图片

Rabbit R1 的橙色风暴去年席卷全球,但最后却以大翻车的结局潦草收场。
而最近,Rabbit 公司宣布重磅功能 LAM Playground 向所有用户敞开大门,力图要证明 AI 硬件并非是一个伪命题。为此, Rabbit 创始人 Jesse Lyu 也接受了外媒 The Verge 的采访。
这篇长达 2.4 万字的访谈,可以说是字字珠玑,信息密度颇高。

图片

在访谈中,Jesse Lyu(吕骋)坦率分享了公司的发展历程、团队结构、资金筹集、产品盈利等方面的关键信息。
这些宝贵的经验总结,不仅让我们对当红炸子鸡 Rabbit R1 的过去,现在和未来有了更立体的了解,也间接回答了 AI 初创公司应当如何在行业巨头夹缝中生存的难题。
此外,他也不忘澄清一个报道谬误,即 R1 并非日活量为 5000,而是「每时每刻有 5000 个活跃用户」。
太长不看,省流版:

创始人投身 AI 行业源于拥有「贾维斯」的极客梦,在他看来,早期的智能音箱与现在的 Rabbit R1 在形式上有着相似之处。

想实现「贾维斯」般的功能,必须解决两个问题:首先,设备必须能够通过对话准确理解用户的意图;其次,理解之后,设备是否能够真正帮助用户完成任务?

Rabbit 公司刚创业时只有 7 名员工,等到 R1 在 CES 发布时,人数增至 17 人,目前大约有 50-60 人,创始人认为,公司的核心工作集中在软件的开发上。

Rabbit R1 的外观设计仅用了 10 分钟就确定下来,从草图到产品发货,整个过程不到半年。创始人认为,与苹果、OpenAI 等巨头相比,Rabbit 公司的优势在于能够迅速推出新产品。

尽管 Rabbit 计划筹备多个项目,但至少在今年年底前,主要精力仍将集中在 LAM 上。创始人表示,R1 并不急于推出新版本,但确实在考虑不同的产品形态。

售价 199 美元的 Rabbit R1,利润率超过 40%,大约在 80-90 美元之间。用户至少要使用超过一年半才能「回本」。为了盈利,Rabbit 计划推出新一代的应用商店。

最近推出的 LAM Playground,可以看作 Rabbit 真正想要创建的通用跨平台代理系统的第一步。创始人承认 Android 底层代码确实存在,但也强调关于 LAM 不存在的说法是不正确的。

R1 的日活量并非 5000,而是「每时每刻有 5000 个活跃用户」。在 LAM Playground 推出后,活跃用户能够达到 33760。且创始人透露,售出 10 万台的 R1 退货率不到 5%。

创始人认为,像 Rabbit 这样资金有限的 AI 初创公司并不是要重复造轮子,而是考虑如何将最新的技术和研究转化为可以快速发布并收集反馈的产品。在这个过程中,可以充分利用人类的共享资源。

外观上,创始人表示,Ai Pin 的设计过于激进,相比之下,R1 「在某种程度上非常保守」,并且之所以刻意避免设计成智能手机的形式,是因为明白现有的 AI 还不足以应对复杂需求。
全文共 24182 字,由 APPSO 编译,预计 61 分钟读完,Enjoy it~🥳
Rabbit R1 的雏形更像早期的智能音箱
主持人:欢迎 Rabbit 的创始人和首席执行官 Jesse Lyu 来到 Decoder。
Jesse Lyu:谢谢你,Nilay。很高兴来到这里。
主持人:我非常期待与你交谈。Rabbit 是一家极具吸引力的公司,其产品 r1 的概念同样魅力十足。许多人认为 r1 将成为智能手机或其他产品的下一代进化形态。
此外,Rabbit 公司本身也颇具趣味,它与 Teenage Engineering 有联系,后者是 The Verge 非常喜欢的公司之一。因此,我们有很多话题可以探讨。
你还有一些关于 Rabbit 开放其 Large Action Model(LAM)的消息要分享。虽然这还只是早期版本,但我真的很想讨论这个话题。在此之前,让我们先从 Rabbit 公司本身说起:
Rabbit 公司成立时间不长,r1 产品开始发货仅六个月。那么,Rabbit 是做什么的?公司是如何成立的?
图片
Jesse Lyu:长话短说,Rabbit 是一家非常年轻的公司。回顾历史,我在 2013 年创办了一家人工智能公司,叫做 Raven Tech,我们参加了 YC 2015 年冬季的那个批次。
这是我个人追求这个宏大愿景的梦想。我想,作为这一代人,我们看过很多科幻电影,里面有许多人工智能的元素。我想每个极客在某个时候都希望能创建自己的贾维斯。所以这正是我 11、12 年前创办 Raven Tech 的原因。
当时我们有这个想法和方向,但那时的技术——显然没有 GPU 训练,也没有 transformer 之类的东西。因此,我们在语音识别和自然语言处理(NLP)与自然语言理解(NLU)的早期阶段非常努力地工作。
虽然技术并不成熟,但我们尽了最大努力。我们实际上建立了一个完整的云系统和硬件,这与今天 Rabbit 所拥有的相似。但当时的形式更像是智能音箱。
正如大家所知,10 年前,每个人都在追逐这种形式。最终,这家公司被收购了,因此对我来说这并不是一个新想法,但当我看到研究方面的进展,尤其是 transformer 的出现时,这无疑是一个新的机会。
当我有机会尝试 ChatGPT 或 GPT 的 API 时,这实在是令人印象深刻。因为我们觉得时机是对的。要实现像 r1 这样的功能,或更科幻的贾维斯功能,必须从后端解决两个关键部分。
首先,要确保设备通过对话理解用户的意图,这涉及到 transformer 和大型语言模型。
我们在 2020 年至 2021 年间坚信,transformer 是正确的路径,其他公司也在向这个方向发展。我们相信这一部分已经或将会被解决。因此,我们的重点立即转向:在设备理解用户之后,是否能够真正帮助用户完成任务?
我十、十一年前创办的公司 Raven Tech,实际上是第一批设计云 API 结构的公司之一。
在语音识别和理解后,查询会被发送到不同的 API。系统会识别并理解,「哦,也许你在寻找 Yelp 上的餐厅,或者想从某个流媒体软件播放一首歌。」
但我认为十年前,API 存在巨大的机会,很多公司都在开发 API。如果你还记得十年前的硅谷,大家都在谈论未来的操作系统可能只是 HTML5。
然而,这种想法并没有持续太久。现在来看,2020 年之后,API 业务并不是大多数流行服务的主要业务。因此,我们也在评估是否能构建通用的代理技术,这确实很具挑战性。
因为我相信目前的 AI 主要是通用型的。显然,有很多公司在做垂直应用。你可以为 Excel 或法律文件处理构建专用智能体。
但我认为最大的梦想、也让我们感到兴奋的是通用能力。
我们能否创建一个不需要预训练、不了解用户需求的系统,用户只需随意表达他们的需求,而我们能够足够智能地处理所有任务?这这就是我们觉得机会恰到其时,并迅速创办 Rabbit 的原因。
图片
主持人:上至世界上最大公司的 CEO,下至像你这样的创业公司创始人,我从各类人中听到过这个想法——智能体将在我们生活中扮演重要角色,尤其是通用智能体能够在互联网上代替我们采取行动的概念。
我想回到这个话题。这是一个重大的想法,但我想暂时专注于 Rabbit。
今天 Rabbit 有多少员工?
Jesse Lyu:我相信目前大约有 50 人,如果加上实习生,大约在 50 到 60 人之间。
但是我们刚开始时,公司的员工只有 7 人,到我们在 CES 发布时,人数增至 17 人。因此,在四到五个月内扩充团队,对我来说相当具有挑战性。
主持人:CES 是一次重大的发布。我们在那里,David Pierce 参加了聚会。你在酒店房间里进行了演示,然后,你在 JFK 的 TWA 酒店举行了发布派对,这非常酷。产品已经发布,但你一直在扩充团队。
你提到在 CES 的 1 月份时有 17 名员工,现在有 50 人。你增加这些员工是为了做什么?
Jesse Lyu:大部分是工程师。我们有一个非常小的设计团队,负责硬件设计或工业设计,从一开始就成立了,而大部分新员工则在 AI 和基础设施方面工作,基本上是云计算。
我们不仅发货硬件,还为其构建整个 Rabbit 操作系统。因此,我认为主要的工作总是在软件部分。
主持人:整个公司的结构是怎样的?从 7 人到 17 人再到 50 人, 你显然需要决定如何组织 Rabbit。现在的结构是怎样的?有何变化?
Jesse Lyu:我们主要位于圣塔莫尼卡(Santa Monica)。我们在湾区有一支出色的设备团队,还有几位研究工程师分散在各地。
因此,大部分工作是线下工作的,但也有一定的混合工作模式。我们招聘人才的方式主要依靠内部推荐,因此我们没有花钱去寻找招聘机构。大多数优秀的人才都是通过内部推荐找到的。
主持人:那么, 你现在的 50 名员工在公司内部是如何组织的?
Jesse Lyu:实际上是相当扁平的。我们有不同的部门。硬件 ODM/OEM 部分位于亚洲。我们的工业设计团队与斯德哥尔摩的团队合作,这里涉及到 Teenage Engineering。
我们自己完成图形和市场营销的所有工作。然后在软件方面,我们有设备团队需要与 ODM/OEM 合作,还有云团队和 AI 团队。这基本上就是我们的团队规模。各团队之间显然有交集,我们主要以项目为基础合作。
因此,没有复杂的层级结构。我曾经领导过的最大公司是在 Raven 时代。当时在被收购时,我们有 250 名员工。因此,管理大约 50 人对我来说仍然在我的舒适区内。

10 分钟决定 R1 外观,推出新产品仅需 6-8 个月
主持人:Teenage Engineering 在 Rabbit 的故事中占据了重要地位。他们显然设计了 r1 硬件,而他们的创始人 Jesper Kouthoofd 是你的首席设计官。
你现在还在设计多少硬件?是否有后续迭代?你有新产品的路线图吗?
Jesse Lyu:我们的合作方式——显然,这不是我们第一次合作。
在 Raven 时代,我们就有过合作。首先,Teenage Engineering 是我心目中的 Hero 公司。
我非常感激他们多年来的支持。我们的合作方式非常直观。我认为我们采用的是非传统的方法——我可以举个例子。
在 Raven 时代,我们大概只进行了两次面对面的会议,几次电话沟通,没有邮件和短信。我们建立了一个秘密的 Instagram 账户,仅用于分享草图,我们在 Instagram 上点赞,这就是我们设计之前的 Raven 项目的方式。
这次甚至更快。我认为我已经公开分享过这一点。我们大约花了 10 分钟决定 r1 的外观,并做了一些快速草图。最终,我推动 Jesper 采用了当前的颜色,即橙色。
我们确实在脑海中有两个或三个项目,但我认为在今年年底之前,我们的主要关注点是将这个 LAM 推向下一个水平。所以,请继续关注。
我们团队在硬件方面反应非常快。因为当我们开始绘制 r1 草图时是在去年 11 月,接着 1 月份推出,4 月份开始发货。所以如果我们想推出下一个项目,预计大约需要六到八个月的时间框架,肯定不会像一年或两年那样长。
不过,我认为……我昨天进行了一个社区语音聊天,和大家谈论了当前的 r1,因为我真的不喜欢现在的消费电子产品。像是每年一代,无论如何。我们已经看到智能手机公司每年发布这些产品,变化微乎其微。
当我们开始设计 r1 时,整个 Rabbit 操作系统是基于云的。这意味着这款硬件虽然售价 199 美元,且不是最新的芯片,但它非常有能力将未来的功能转移到这个设备上。
因此,我认为 r1 并不是一款生命周期为一年的设备。我们的社区认为,他们可以对此进行许多调整。因此,从这个意义上说,我们并不急于发布另一个版本,但目前我们确实在考虑不同的形态。
主持人:Jesper 是否仍在积极参与这些设计,还是作为首席设计官,他在做其他事情?
Jesse Lyu:他就在我们办公室,三天前刚来过。是的,我们正在积极合作。
主持人:到目前为止, 你筹集了多少资金?
Jesse Lyu:这是个好问题。我想要准确一些,但总的来说,大约在 5000 万美元左右。
最后一轮是 3500 万美元,由 Sound Venture、Khosla Venture 和 Amazon Alexa、Foundation Synergist 领导。因此,最后一轮是 3500 万美元,如果把所有资金加在一起,我想大约是 5000 万美元。
主持人:当我看到其他 AI 公司正在筹集的资金时,就在我们交谈的同时,OpenAI 刚刚筹集了历史上最大的一轮资金,以构建基础模型等事项,或者说无论 Sam Altman 认为他在做什么,你认为你能在每轮 3500 万美元的情况下竞争吗?
Jesse Lyu:不,但我认为谈论竞争——资金是其中一部分。我觉得自己算是个老手,因为我之前做过创业。我知道这怎么运作。当然,资金非常重要,尤其是在早期几年。
但我认为当我们谈论竞争时,我们最终想要向消费者交付产品。
因为我这样看:人们并不是在购买电力。
电力基本上是由南加州爱迪生公司在加利福尼亚州控制的,对吧?你有一个地址,无论使用多少电力都要付费。但我认为人们最终是在购买微波炉、汽车、摩托车、电视。人们购买的是由电力驱动的产品。
因此,从研究的角度来看,我可以非常明确地说,目前 Rabbit 没有办法与 OpenAI、Anthropic、DeepMind 和 Google 竞争,但我们该如何参与这场游戏呢?
我们与各方合作。对吧?所以 r1 承载着这些公司的每一个最新模型。它们的能力与我们在 Rabbit OS 上的产品创新和提供给用户的所有功能结合在一起。
因此,从研究的角度来说,我们无法竞争,但我们能快速推出产品。
你看到 OpenAI 刚刚发布了他们所称的实时 API。
我实际上受邀参加了会议,但因为我昨天正在推出 LAM Playground,所以没能亲自到场。但他们提供了一个 API,让人们可以为此构建一个智能体。
不过昨天,我们推出了 LAM Playground, 你可以通过语音访问任何网站并浏览。
所以我认为竞争是一个不同的层次。我们希望筹集更多资金,资金确实很重要。但现在谈到竞争,我们必须聪明地应对。他们在研究方面表现出色,而我们在将最新研究转化为用户今天可以使用的产品方面表现出色。
主持人:让我们谈谈今天的产品。目前你有 r1。你可以购买它。这是一款美丽的硬件产品,颜色是橙色,非常醒目。它有一个屏幕,有一个滚动拨轮,并且它可以连接到你的云服务,为你处理各种事务。
Jesse Lyu:是的。
图片
R1 利润率高达 40%,绝不考虑付费订阅
主持人:这个产品的售价是 199 美元。你现在在每卖出一个 r1 都有盈利吗?
Jesse Lyu:当然。
主持人:利润是多少?r1 的利润是多少?
Jesse Lyu:虽然我不能告诉你具体细节,但利润率非常高,超过 40%。
主持人:你在 r1 的硬件利润率上超过 40% 吗?
Jesse Lyu:在硬件利润上,我们确实进行了计算。因为昨天在推出 LAM Playground 后,服务器多次崩溃。因此我们可能需要重新做这个计算。
但首先,最开始我们是在盈利的。现在我们有了更强大的功能向前发展。我认为我没有听说过因为有一项受欢迎的服务而破产的公司。我认为如果你构建了一个好的产品,就会——
主持人:好吧,等一下,我可以为你划清这个界限。所以售价是 199 美元。你每个 R1 的利润超过 40%,所以大约在 80 到 90 美元之间,对吧?这不是 50%,那样的话就是 100 美元,所以稍微少一点。那么利润在 80 到 90 美元之间。这个利润—— 你确实需要支付云账单,对吧?
Jesse Lyu:是的。
主持人:那么这个利润都用于支付你的云账单了吗?
Jesse Lyu:显然,我们与这些云竞争对手有专用实例。对吧?我的意思是,不要误解我的意思。亚马逊 AWS,他们是在 AWS 上托管,还有 AWS、Google Cloud、微软 Azure。在大型语言模型的合作伙伴关系中,我们有 Anthropic、OpenAI 和 Gemini。所以不要误解我的意思——
主持人:这很多公司都想赚钱。我只是想说……与这些公司合作并不便宜。
Jesse Lyu:确实不便宜,但我想强调的是,他们竞争如此激烈,以至于给初创公司提供了很多良好的福利。我必须为所有这些公司大声说谢谢。因此,他们真的想找到帮助你入驻的方式,并在长远中让你赚钱,但我认为在当前规模下,我们完全能够应对,是的。所以我们从他们那里获得了很好的交易。
主持人:所以如果我从你这里购买一个 r1, 你会获得 90 美元的利润,或 80 美元的利润。
那么我需要多大程度使用我的 r1 才能使你产生负利润?因为我与 AI 进行的每一个操作都需要消耗 token。那个 token 是要花钱的。它需要多个服务器。你的带宽也是要花钱的。这一切都要花钱。
一个单一的 r1 用户需要多大程度使用他们的 r1 才能消耗掉你 90 美元的利润,或 80 美元的利润?
Jesse Lyu:所以我认为,一个适度的用户以或非恶意的方式使用它,真的很难计算。但——
主持人:两年的使用量呢?一年?六个月?
Jesse Lyu:我认为肯定超过一年半。我不确定是否能达到两年,因为我们将会在这个基础上实现新功能,包括 LAM Playground 和教学模式。
但是,是的,我想分享我的理解:我们确实做了数学运算,我们在盈利,没问题。我们希望能卖出更多,这会有所帮助。但我认为整个发布策略的目标并不是在前六个月赚取多少金额。我认为有些公司对如何推出产品非常贪婪。我甚至不想提及名字,这样是行不通的。
如果你看任何新一代产品,如果创始人、公司和董事会决定制定一个策略:「让我们从用户那里榨取每一分钱」,这是行不通的。
因为我们知道 AI 还处于早期阶段,我们知道会有很多事情出错。事实上,我相信每一家公司,无论大小,如果你在做最新的 AI 工作,前两周会是灾难,因为你会遇到许多 AI 的错误行为。你还会发现模型在处理一些极端或不太常见的情况时的问题。
所以我认为这一切都太新了。我们绝对不想收费订阅。那更糟。
我一般不喜欢这种策略。所以即使这听起来很令人担忧,比如说,你可以轻易扭曲我的故事,或者有人可能会扭曲我的故事,像是「哦,Rabbit 做的一切都很好,除了他们不管怎样都要破产」,我认为在这个意义上这样思考非常愚蠢,因为伟大的创新,你必须首先关注创新部分。
然后你再考虑资金问题。如果我们现在就开始考虑资金问题,那这一切都没有意义。
真的,毫无意义。我认为行业里有些人对一切都有深入的理解,但他们却选择发布一个每月收费 4.50 美元的壁纸应用。我希望它能成功。
你可以去找那个人,告诉他:「嘿,你不会破产,因为你的资金流动和所有这些计算都是正确的。只要你收费,你就会盈利。」但这种观点是基于整个逻辑都必须成立的前提下的。
我认为在这个阶段我并没有浪费太多时间去微调一些关于利润的「数学方程」,让它变得更像是 20%、50%。
显然,作为一个初创企业,我们需要生存,即使我们自发布以来经历了过山车般的起伏。但我们在成长,我们在生存,而且我们仍然在推出其他设备(包括 iPhone)无法做到的功能,这真是一个非常好的迹象。
主持人:首先,我认为没有人曾将对 Humane 的批评与对 Marques 壁纸应用的批评联系在一起。我认为 Marques 对他的专业领域以及那个应用出现问题的看法非常不同,也许有一天我们会和他讨论这个。
但我想问你的是,当你谈到增长和 Rabbit 的单位经济(Unit Economics,指的是生产或销售一个单位产品的成本和收益。)时,拥有 Rabbit 超过 18 个月可能会对你而言变得不盈利。
那时你会收费订阅。你会说「要继续使用这个设备,它对我们的公司不能是负担。」这就是我想强调的点。
Jesse Lyu:我认为这个问题有多种解决方案。显而易见的一个解决方案是——假设每个用户都使用 R1 超过 18 个月。我们将推出下一代设备,也许是多个设备,这些设备在硬件上依然盈利。
其次,我们从一开始就为此做好了准备。从上周开始,我们向一小部分测试者推出了 Teach Mode 的 Alpha 版本。我很乐意让你获得访问权限,所以请稍后与我们联系,看看我们能否帮助你设置。我们推出了大约 20 到 25 名测试者的一个小组。
在过去的 72 小时里,我看到通过 Teach Mode 创建了超过 200 个课程或智能体。如果你看当前的 Apple 生态系统或 Android 生态系统,硬件不会是主要的盈利来源。
在硬件利润上赚钱非常困难。所以在某个时候,你希望将其转化为服务和软件。这并不意味着你会为设备收费订阅。我认为非常有前景的是,我们将逐步将 Teach Mode 推向测试者,并希望在今年年底之前正式推出 Teach Mode。
因此,由每个独立用户或开发者创建的所有课程或 Rabbit 或智能体,可以视为新一代的应用商店。在这方面,我们可以赚到可观的收入。
主持人:利用应用商店经济,收取 30% 的提成。
Jesse Lyu:我并不想创造新的商业模式——正是如此。作为初创企业,「发明」自己的商业模式是非常冒险的,但有一个成熟的商业模式,那就是应用商店,这为年收入贡献了约 70%。
主持人:我一直很好奇,玩过 R1 并体验过这个设备后,你们是如何在 199 美元的价格下盈利的。这让我觉得很有道理。当你考虑 Rabbit 实际执行的功能时,我问它一个查询,它在屏幕上展示一个美丽的动画,这非常可爱,然后它就在网络上使用一堆 API。
昨天你们推出了 LAM Playground。人们可以观看它的工作。我在 The Verge 的网站上看到 LAM 在浏览以及读取标题,这很不错。这是否意味着我向 Rabbit 询问某事,它会在云端为我点击网页?
Jesse Lyu:我们需要将这里边的两个不同系统分开,甚至可能是三个不同的系统。
让我们先谈谈昨天之前的情况,因为昨天真的是一个伟大的里程碑。在昨天之前,当你与 R1 对话时,我们有一个意图分类系统,它将音频转换为文本,我们将文本发送给我们的 LLM 提供商,然后使用意图分类系统。
从那里,在 LLM 理解意图后,我们会将其发送到不同的 API 或功能。有很多功能是在设备上的,比如设置智能定时器或回答简单问题,但我们认为还有其他服务或模型可能会比默认的 LLM 更好地回答某些查询。因此,有时我们会将特定查询发送给 Perplexity,有时则发送给 Wolfram Alpha。
你可以理解,意图分类系统是将信息分发到不同目的地,然后相关功能将被触发。
但在昨天之后,我们有了这个 Playground,这是我们真正想要创建的通用跨平台代理系统的第一步。
它必须是通用的,虽然目前它还不是跨平台的,只处理网站,但很快就会变成跨平台。通过这个通用网站代理系统,你可以与 Rabbit 对话,例如,「嘿,去 ABC 网站或者其他地方,帮我做这个。」
这正是我们希望设计产品的方式,我认为行业中的每个人都在朝着这个方向发展,你说出某些事情,我们理解你并帮助你完成。
当我们在 Rabbit 的界面上显示这些窗口时,智能体将会分解不同的步骤。
例如,我曾向另一位记者展示过这个:「嘿,先去 Reddit 搜索一下 2024 年最佳 4K HDR 电视的推荐。找到那个型号,然后去 Best Buy,添加到我的购物车。如果 Best Buy 缺货,那就去亚马逊搜索。如果它们都缺货,就给我第二个推荐的型号。」
你实际上可以链式查询,可以暂停、添加、调整和微调。这真的是像一个游乐场(Playground)。你可以自由探索这个系统,而这个系统足够好,可以完成日常任务。
显然,有开发者和我们的黑客——当然是白帽黑客——给我们展示了令人印象深刻的成果。有人使用 LAM 游乐场通过与 R1 对话创建应用程序,因为你可以使用第三方 AI 目的地,通过提示创建应用程序并下载代码等。
因此,看到这些精彩的展示,实际上是在精确的 24 小时内发生的,真的很令人惊讶。
主持人:我想把昨天和前一天划分开来,对吧?你们在一月的 CES 上宣布了 Rabbit 和 LAM,但当时它并不存在。为什么在没有其基本功能的情况下就宣布它?
Jesse Lyu:这不准确。我想借此机会澄清一下。
现在我们有七个应用。第一天时我们有四个应用。这是 LAM 的第一版,它不是一项通用技术。我们在 CES 上从未声称你可以现在去亚马逊下单。我们表示正在朝这个方向努力,而现在有四个应用可以连接。我们会添加更多服务。在过去几个月里,我们确实添加了三项服务。
所以截至今天,总共有七项服务,我们会继续改进当前的 LAM 游乐场,并在时机合适时进行更换。关于LAM不存在的讨论是错误的。我可以追溯到这个谣言的起源,很多人黑进了 R1。他们看到 R1 基本上是由本地设备上的 Android 系统驱动的,这显然是应该如此。如果它不是 Android,那反而会显得可疑。
因此,它的底层是 Android 系统,他们提取了代码,实际上,你可以这么做。事实上,历史上每一款优秀的硬件都会被破解。有人进入这个系统并越狱 R1,我想每款硬件在某种程度上都可以越狱。
这让我们感到受宠若惊,但如果你构建了一个形态,而没有人愿意越狱它,那可能这个形态也不是很好。
因此,人们越狱后发现 Android 代码,并将其转储到其他媒体上,然后说,嘿,这里没有任何关于 AI 的东西,LAM 也不存在。当然,因为所有的内容都在 AWS 上。这就是谣言的开始。然后很多媒体就采纳了这个说法并反复传播。
主持人:你们开始使用的应用,包括 Spotify、DoorDash,还有一些其他的。那些是 API,对吧?你们是使用他们的 API。实际上是通过 Chrome 在网页上打开 Spotify 并点击。
Jesse Lyu:是的,是的。所以你是指——
主持人:为什么?这是我能想到的使用 Spotify 最「脆弱」的方式——
Jesse Lyu:没有 API。
主持人:你们做了一个智能音箱。Spotify 可以在智能音箱和其他设备上运行。
Jesse Lyu:那是一个合作关系。去 Spotify,查看他们的文档。那里有一行特别说明,你不能使用 API 来构建一个语音激活的应用程序。字面上就是这样。
主持人:所以现在在 R1 上,当我请求播放歌曲时,它会在某个地方打开 Spotify 的网页。
Jesse Lyu:进入窗口。是的。
主持人:然后你通过你的服务将音频重新串流到我的设备上。
Jesse Lyu:正确。是的。
主持人:Spotify 知道你们在这么做吗?
Jesse Lyu:是的。
主持人:他们对此表示满意吗?
Jesse Lyu:我们进行过一次对话。他们意识到这是一种代理行为。我们说,用户在你们的网站上登录,他们是 100% 合法用户,并且是付费用户。当我们进行这个操作时,我们帮助他们点击按钮。
主持人:我一直对此非常好奇,一直想问你这些问题。
所以我让我的 R1 播放一首歌。在 AWS 的某个地方,一个虚拟机启动,打开一个网页浏览器,登录我的 Spotify 账户,点击 Spotify 上的按钮播放一首歌,然后你将那段音频捕获并重新串流到我的 R1 上?
Jesse Lyu:一切都准确,除了我们不帮助你登录。你必须自己登录,我们不保存你的连接。
主持人:但是你将 Spotify 播放的音频重新串流到我的虚拟机,然后再到我这里,这一点你们确实在做吗?
Jesse Lyu:我们基本上是为每个人提供一个虚拟机,这就是 VNC(一种远程桌面共享系统,它允许用户通过网络实时查看并控制另一台计算机的桌面环境),完全符合政策,你有权访问那个 VNC。
在那个 VNC 上,我们基本上直接在网站上工作,就像今天的 LAM Playground 一样。所以我们不是从 Spotify 或其他地方获取音频。我们基本上是访问 Spotify 网站,为你播放那首歌。
图片
主持人:好的,但数据是如何传输的?数据先传送到虚拟机,然后再从虚拟机传送到我的 Rabbit。
Jesse Lyu:正确。
主持人:所以你们是在重新串流歌曲给我?
Jesse Lyu:我不是在重新串流歌曲给你。我基本上是将 VNC 直接呈现给你的 R1。
主持人:等等,也许我不够专业,无法理解这是如何运作的,所以你们是将 VNC 呈现给我的 R1。
Jesse Lyu:正确。
主持人:那么它是在我的电脑上本地运行吗?
Jesse Lyu:没有用户界面。
主持人:好的,我明白你的意思了。也就是说,我登录到一个云计算机上。R1 是云计算机的客户端。而 Spotify 在那台云计算机上播放,R1 接收那段音频。但这会引发了很多额外的问题吧?
Jesse Lyu:首先,我明白你想表达的内容。
我想先说,第一,我们不使用 API。
第二,关于 LAM 不存在的说法是不正确的。因为我们提供了所有这些服务,如果你仔细查看他们的文档,会发现像 DoorDash 和 Uber 这样的服务并没有提供 API。
主持人:但我想明确的是,这是那些公司为了防止像 Rabbit 这样的公司自动化他们的服务,并剥离用户与服务之间的中介而做出的选择。
因此,当你考虑这些代理模型如何在网上展开,无论是 LAM,还是在 LAM Playground 之前你所做的事情,所有这些公司都会对代理是否可以以这种方式使用他们的服务,有他们自己的看法。这一点尚未确定。
Jesse Lyu:是的。
主持人:我很好奇,你有一些服务,他们可能只是说,好吧,让我们看看这会怎样。
但随着时间的推移,你们将进入一个更复杂的谈判过程,这可能会由大公司来决定交易,对吧?你可以想象 OpenAI、微软或亚马逊会达成协议,让 DoorDash 可以被代理访问,而 DoorDash 可能会说:「我们已经达成了这个协议,你不能访问。」你们怎么解决这个问题?
Jesse Lyu:目前这不是问题。我们将看看这个问题如何发展,但我记得苹果在相对较小的时候,并不像今天那么大。
当我读史蒂夫·乔布斯的书时,有一章提到,他说,「去和索尼谈,从明天起每首歌 99 美分」, 在某个时刻,这种谈判水平是需要发生的。
我不确定我们是否在主导这个过程,还是其他人,但这证明了我们不使用 API。我认为这些服务并不是因为想要阻止人们自动化他们的公司而不构建 API。
这只是因为对他们来说,API 并没有带来收益。他们肯定会希望在我们发展壮大后某个阶段建立谈判。你知道,我们在推出之前曾试图联系 Uber。他们说:「你是谁?你太小了。」就是这样。「我们不在乎。」
主持人:那么,现在你在 R1 上使用 Uber,是在打开 Uber 的桌面 APP 吗?
Jesse Lyu:不,是在打开 Uber 的网站,非常不稳定,非常——。
主持人:我指的桌面应用是通过网页浏览器叫 Uber。如果你运行在 Android 上,为什么不打开一个 Android 虚拟机,使用 Android 应用?
Jesse Lyu:做到这一点稍微有点技术性,我们正在开发其他平台。我想我向一小部分人展示了 LAM 在桌面操作系统(如 Linux)上运行的原型,支持所有本地应用。所以我们肯定朝着这个方向前进。
主持人:是否有可能他们能检测到这些并不是人类用户,而实际上是代理用户?
Jesse Lyu:我想总会有办法检测,但我认为问题是——这是一个非常好的话题,我们在这里讨论。想想 CAPTCHA。
(注:CAPTCHA 是一种自动化的公共图灵测试,用来区分用户是计算机还是人类。它通常用于网站和应用程序中,以防止自动化的恶意行为,如垃圾邮件发送、自动账户注册等。)
主持人:当然。
Jesse Lyu:LAM Playground 或任何能够的 AI 模型现在都可以去解决基于文本的 CAPTCHA。
所以他们防止自动化系统的旧系统目前正在失效。这是行业努力推动大家重新思考——现在有了这个 AI,有了所有这些智能体,他们的业务将如何改革,所有这些政策需要如何改变?
我确实同意,这个话题非常复杂,但我能看到的是,这并不是 Rabbit 在这里做什么神奇的事情。每个公司都在这样做。我们还有其他智能体公司,甚至 GPTs 也在这样做。这是一个新兴的浪潮,迫使所有这些旧服务重新思考。
但我想分享我在处理类似情况时的个人经验,比如在 2013 年我们首次开始开发一款智能音箱时——所有这些音乐公司当时并不在意。
直到每个人都开始制造智能音箱,他们才意识到必须重新授权这个特定产品形态的版权。
我认为最终这一切都关乎金钱。他们希望将同一版权授权给尽可能多的产品形态,尤其是那些受欢迎的。所以我们愿意接受这种谈判。但正如你所说,确实有更大的公司在做类似甚至更先进的事情,需要解决。
我再给你举个例子,比如 Siri 和微软的「Recall」功能,不过他们现在已经撤回了这个功能,我想他们可能又重新推出了。这个功能非常激进,它会捕捉你本地电脑的屏幕截图。这就是我在 AI 早期所观察到的情形。
人们会有许多不同的尝试,但最终会达成和解,并就条款和条件达成一致。
但如果你观察我们如何将网站自动化整合到它们的界面中,最重要的是我们不会创建虚假用户或垃圾用户。我们不会代替你登录,你就是你。我帮助你完成事情的方式是帮助你点击按钮和操作鼠标。
这就像,如果我想让朋友帮我个忙——举个例子。如果我很忙,即将参加会议,我想让朋友帮我从 DoorDash 订个汉堡。我只需要解锁手机,把手机递给朋友,他就能帮我完成点击操作。
在这个过程中,我并没有和朋友分享我的登录凭证。我没有告诉他我的手机密码或 DoorDash 密码,甚至连我的信用卡信息都没透露。他只需要把汉堡加入购物车并点击确认,仅此而已。
所以这个朋友就像是第一代 LAM,但不幸的是,我们并不喜欢这种方式。这就是为什么我们努力工作。现在我们有了 Playground,这是一个更通用的技术。
主持人:那么,让我来问问你关于第一代 LAM 和 Playground 之间的区别。Playground 听起来像是你一直想要构建的东西。你实际上有一个智能体可以查看网页、理解网页并对其采取行动。
第一个版本可能在更广泛的定义中算作 LAM,但作为技术,它被表现为通过这些接口自动移动的测试软件。你并不真正理解这些接口,而只是能够导航它们。
因为这在机器人过程自动化中是非常正常的事情。你是在构建这类技术的同时,LAM 才开始出现吗?
Jesse Lyu:不,不是的。
主持人:不是?好的。
Jesse Lyu:我们正在研究神经符号学,对吧?所以这个想法是——
主持人:但是即使在第一个版本中呢?
Jesse Lyu:是的。
主持人:我一直想知道的是,如果 Spotify——在 LAM 存在之前,因为我理解这个版本的说法是它可以理解每个网站——但如果 Spotify 改变了它的界面,或者 DoorDash 改变了它的界面,Rabbit 就会有些受阻,对吧?
Jesse Lyu:我告诉你,Spotify 的界面一直在变化,我认为在过去的六个月里,自从第一次将 Spotify 添加到连接以来,我们可能将 Spotify 维护了两次,总共一个小时。这是一个很强的证明。
主持人:这的确是一个很强的证明,但我认为这意味着它还不够好,对吧?我手机上的 Spotify 应用从未因为维护而停机,如果声称智能体可以为我采取行动,我必须百分之百依赖它。
Jesse Lyu:不——
主持人:所以我认为我一直在想的问题是,想要实现的目标是让智能体在网上运行自如,而我们现在能做到的现实之间的差距。实际上中间的选择是 API,中间的选择不那么脆弱。你——
Jesse Lyu:好的
主持人:对我来说,智能体的更有意义的做法是,不使用面向人类视觉设计的界面,而是使用面向计算机设计的界面。
Jesse Lyu:我真想大笑。
主持人:好的。
Jesse Lyu:真的。两件事。我不同意 Spotify 运作不好的说法。Spotify 一直运作得非常出色。
主持人:当然。
Jesse Lyu:五个月里,可能我们只将其维护了两次,总共的维护时间不到一个小时。你可以问任何 R1 用户。这不是通过 API 完成的,这很令人印象深刻,而是通过智能体完成的。
图片
主持人:我——
Jesse Lyu:这是通过智能体处理的——
主持人:我明白作为智能体来说这很令人印象深刻。我只是想说 API——
Jesse Lyu:你是说它不够好?
主持人:是的。
Jesse Lyu:没错,它确实不够好。
主持人:那什么才是 100% 好的标准?
Jesse Lyu:好的,现在这是我在思考的问题——
主持人:可是 API 是 100% 稳定的。
Jesse Lyu:是的,API 是 100% 稳定的,但你依赖于他们提供给你的稳定、有效的 API,而这个 API 从未崩溃——
主持人:我是用户,我不在乎。我想说的是:作为用户,为什么我应该在乎?
Jesse Lyu:的确,用户不需要在乎,但我们需要在乎。
主持人:好的。
Jesse Lyu:我们需要在乎,因为我们检查哪些好的 API 可以使用,别误会,Perplexity 的 API 表现很好。当然。OpenAI 的 API 几乎每天都会崩溃一次或两次,他们说:「我们观察到一个问题。」
你可以查看「ChatGPT 是否宕机?」上面详细记录了每天崩溃的次数,我想平均每天崩溃超过 10 次,或者不稳定。我们有一个通知器。因此,首先,API 并不稳定。
主持人:当然。
Jesse Lyu:而且你必须追求人们想要的服务。我们想提供这个音乐功能,我们认为 Spotify 整体体验最好,仍在努力追求这个合作伙伴关系。
但是从技术角度来看,我为什么不喜欢 API 是因为——想想 Alexa。Alexa 的扬声器都在使用 API,你真的要去那里谈判。
因为就像我说的,今天并不是每个人都在开放 API,很多传统服务没有 API,初创公司对于初创公司来说几乎不可能。你去跟他们谈,他们会认为你太小了,对吧?我们做过,我们刚刚对每个人都这样做。他们认为我们太小了,他们不在乎,所以我们不能获得 API。
我们不在乎实现的方式。事实上,因为我们知道你不在乎这是怎么完成的,我不想花六个月、八个月的时间穿西装去和 Spotify 的人和 Uber 的人逐一交谈。
主持人:那么,你们承诺的是,最终会开发出一个通用的 LAM,它能帮你使用网络,对吧?
你提到你可以把手机交给一个朋友,这就是你们能制造 Rabbit 设备并与之交流的原因,它能执行一些任务。而大家看到苹果宣布为 iPhone 上的 Siri 推出了实质上相同的功能。
Jesse Lyu:是的。
主持人:而且苹果可以达成交易,苹果可以在手机本地与 Siri 建立 API 关系。
老实说,苹果可以不断烧钱,直到它选择不再造车或做其他事情。让人们购买另一个设备,并且在设备崩溃时不会回退到 iOS 上的 Spotify 应用,这似乎非常具有挑战性。
你们如何克服这个问题?因为如果技术不是始终如一地表现出色,这就感觉像是一个挑战性的销售。
Jesse Lyu:是的,这确实很有趣。
主持人:你们如何赢得这个游戏?
Jesse Lyu:我认为,首先,代表我自己来说,我在 25 岁时就卖掉了我的公司。
我不想再建立另一个应用程序。我应该追逐我自己的梦想,因为我真的认为我和我们的团队正在努力实现的宏伟愿景,实际上是目前每个人都在追逐的方向。如果不去追逐同样的梦想,无论多么艰难,真的感觉很糟糕。
实际上,我们很高兴能够说出这一点,因为老实说,我们没有来自初创公司的严重竞争对手。当每个人——
主持人:嗯,有一个,似乎是一个相当壮观的失败,对吧?
Jesse Lyu:是的。
主持人:Humane 以大量资金和与 T-Mobile 的大型合作伙伴关系、订阅费用以及《时代》杂志等宣传启动,但似乎并没有很好地发展。
Jesse Lyu:所以我说,目前我认为我们没有来自初创公司的严重竞争对手,然后当我们谈论竞争对手时,显然有苹果,还有每个大公司,包括 OpenAI。
所以首先,我认为这对我们来说是好事,因为这验证了我们的方向绝对正确,我也很好奇——通用智能体技术的明确路线会是什么,因为行业内不同的人可能有不同的想法。
仍然存在争议的状态,目前还没有针对智能体系统的评估,也没有非常好的评估,你可以看到许多不同的研究机构和公司在尝试不同的路线。
有像 GPTs 这样的 API 路线,但并没有真正起飞,还有纯神经符号路线等,以及所有这些多模态。所以我们仍处于每个人都在尝试自己「配方」的阶段,希望这可以成为一个明确的「配方」,包括苹果。
我认为苹果这样做的好处是,他们确实比其他任何公司更好地理解用户,而且他们理论上有无限的钱,他们有一个非常封闭的生态系统。他们推出这个功能的方式是有一个 SDK 叫 App Intent。所以不同的公司或应用开发者需要选择是否注册,以便让新的 Siri 控制某些东西。
我认为作为 Rabbit 这样的小团队,我的相对优势在于我们行动迅速。我们行动迅速并且持续增长。
我认为如果我们把所有的牌都摆在桌面上,我们的启动非常成功。我们是目前销售最好的专用硬件,并且我们获得了良好的利润,解决了所有的初始问题,公司实际上扩大了四倍。所以我们在成长,我们在快速发展,现在我们发布这个。就像你所说的,在今天和昨天之间划一个界限。
我认为今天我可以说,在 R1 上你能做的许多事情,你无法在 iPhone 上做到,我相信最终每个人都能达到所有设备都能做类似的事情,
但我坚信,在接下来的半年内,或者说 2024 年第四季度,可能直到 2025 年第一季度,这仍然是一个你拥有他们所没有的东西,而不是你们都拥有相似的东西,谁做得更好的游戏。
所以我认为相对而言,我们有六到八个月的先机,我们有我们的小空间,但显然我也相信,当大公司想要杀死一家初创公司时,他们有一百万种方法可以做到。这就是现实。
人们不断和我交谈,问各种问题:「如果风险太高会怎样?如果公司倒闭怎么办?」我真的不认为这些问题重要,因为我们正在这条道路上,我们会看到结果,无论是好结果还是坏结果,我觉得这些问题的任何答案都不会改变我们的方向。
老实说。我可以在这里告诉你,像个哭泣的孩子一样说:「这太难了,这是不可能的。行业内的每个人都能轻易杀死我们,或者一个 YouTube 评论者通过发布评论也能杀死我们。」
这并不会改变我们的方向,因为我们在行动,我们在发布,我们在向前推进。
所以看到苹果的情况会很有趣。我参与了苹果的 iPhone 升级计划,因此每年我通过支付相同的月费自动获得一部新 iPhone,但我真的找不到升级的必要性,因为人们在谈论 Rabbit 发布得太早了,现在你有像苹果这样的公司,如果你去洛杉矶的日落大道,或者我想是旧金山的使命街。
你去任何主要城市,你会看到苹果放置的那些巨大的海报,广告牌,对吧?iPhone 16,iPhone 16 Pro,下面还有其他系列?它说苹果智能。这准备好了吗?上市了吗?没有。
图片
主持人:让我谈谈增长。你提到你们的规模扩大了四倍,我想你是指员工数量?
Jesse Lyu:是的。
主持人:你上个月告诉《Fast Company》,R1 每天仅有 5000 人使用。这比你预期的要高还是低?
Jesse Lyu:首先,你看到了我想是《The Verge》的那篇文章吗?我认为—
主持人:不,是《Fast Company》,就这样写的。
Jesse Lyu:是的,不,没错,但那有一篇《The Verge》的文章说 R1 每天只有 5000 名用户,
主持人:那是引用你的话。
Jesse Lyu:首先,我认为我说的可能会被误解。我所说的是,如果你现在查看数据转储,你可能会发现 5000 人使用 R1。至少 5000人。
主持人:我只是想引用你。来自《Fast Company》。「Lyu 说,『现在大约 5000 人每天使用 R1。』」
Jesse Lyu:我说这可能被误解。明白吗?
主持人:好的。
Jesse Lyu:首先,我认为我们看到所有与 R1 互动的人的增长非常稳定,每次推出新功能,使用它的人就会更多。我会给你一些我想分享的数字,也许将来我可以分享非常详细的使用情况。
首先,大约 5% 的人拥有他们的 R1,他们不满意,选择退货的,少于 5%。
主持人:当然。
Jesse Lyu:这是一个非常好的数字,我认为人们使用的主要功能是问问题、视觉识别等等,我们真的希望人们能发现更多的用例,但不幸的是,我们在连接中只有四到七个应用,这是一个瓶颈。
因此,如果你查看总查询,大多数情况下你问一个问题,然后就忘记了,所以这并不是关于你问 R1 多少次,而是关于你问 R1 什么样的任务,以及 R1 是否真的能帮助你。所以我想,是的,很不幸,似乎这是一个误解。
主持人:那么数字是什么?每天的活跃用户数是多少?我们明天会发布更正,是什么?
Jesse Lyu:我会给你一个准确的数字,但我可以告诉你,昨天我们的服务器实际上崩溃了,所以我认为
主持人:是双倍吗?是 10000 吗?还是 25000?
Jesse Lyu:哦,昨天我们的云成本实际上,我想...让我在这里核实一下,因为我可以直接在这里检查。
主持人:这就是为什么我喜欢在节目中邀请创始人的原因。。
Jesse Lyu:好的,过去一天是 33760。
主持人:好的。
Jesse Lyu:所以 33760,是的。昨天几乎有 34K。
主持人:好的。昨天 34000 个活跃用户。好的。
Jesse Lyu:是的
主持人:那占你们销售的百分比是多少?
Jesse Lyu:昨天?
主持人:是的,33760 人。那占你总销售的百分比是多少?
Jesse Lyu:我认为我们交付了超过 100000 台设备,那应该大约是 33% 到 34 %。
主持人:当然,听起来合理,我假设这是因为 LAM playground 的推出,这导致了一个大幅增长。
主持人:那之前的几天呢?
Jesse Lyu:所以过去两天,5206,所以如果你减去 33,那是另外 20000。
主持人:等一下,我很抱歉,我不太明白你的意思。你说的数字,我好像没跟上。过去两天,重新说一遍。
Jesse Lyu:所以过去两天,5206,所以
主持人:这是两天的总数吗?
Jesse Lyu:正确。
主持人:好的,其中一天有 LAM playground 在,所以我明白你的意思了。
Jesse Lyu:正确。
主持人:所以你说的是每时每刻有 5000 个活跃用户,而不是每日活跃用户。
Jesse Lyu:正确。
主持人:好的。那么你每天大约有 20000 个用户,我们看看这个数字是否会因为 LAM playground 而上升。
Jesse Lyu:正确。...因为那篇《The Verge》的文章用了 5000 这个标题,所以我可以告诉你,这是错的。那是非常错的。
主持人:好吧,你告诉《Fast Company》,我们会更新的,但我们——
Jesse Lyu:好吧,他是一个 — ...
主持人:在杂志上引用了你的话,所以我们对此感到满意。
Jesse Lyu:他当时不在那儿,他...他或她。那位记者不在那儿,那不是我在引用中说的,明白吗?
主持人:欢迎回来。那么,你听到了关于 Rabbit 每日活跃用户的讨论,首席执行官 Jesse Lyu 说他会给我们一个更好的数字。我让公司澄清了一下,Jesse 实际上对《Fast Company》说的是,在任何给定时间,Rabbit 有 5000 个用户。
《Fast Company》的文章已经更正,我们将使用 Jesse 提供的每日活跃用户数量,介于 20000 到 34000 之间,这仍然大大低于售出的 100000 个单位。现在我们有了这个数字,我们会运行它,但我问你的问题是,你必须销售更多的 R1,必须让已经购买它的人继续使用它。
事实上,不论 Apple Intelligence 是否到来,它将在未来几周以某种方式到来。大约一周前有报道称,Jony Ive 正在与 Sam Altman 和 OpenAI 合作开发一款硬件设备。
Humane 会有一些动向,Google 和三星也会有一些动作。随着竞争对手的发展,你所押注的核心技术似乎只是能够自动化一个大型行动模型的 VNC?
你将为用户在云端打开会话,然后你的 LAM 会为他们在网上点击,这样就能避免与各种公司的 API 交易、版权交易等其他交易的挑战。
这个想法是否可行?也就是说,这是否能让 Rabbit 避免与那些大型公司支付和获取的所有交易?
因为这是我最担心的事情。我可以想到 10 家公司,它们提出了技术解决方案来应对法律问题,即使技术解决方案再出色,法律问题最终还是会追上它们。
Jesse Lyu:我们对这项技术的信心在于,它是目前的技术方向,而且我还没有看到任何其他方法能够使任何通用智能体系统以不同的方式运作。
这并不意味着我们锁定在一条技术路线上。
如果你和任何公司交谈,可能并不是一个明智的主意去说,「嘿,我们未来 10 年只投资这个。」技术变化得太快,你必须适应。
但目前,我认为我们的起点很好,我们推出了一个免费的概念探索平台,你可以进行尝试,这样我们就能了解这个系统如何改进。
实际上,我相信速度可以非常快地提升,但我们并不是说,「嘿,我们局限于此。」 我们确实有这方面的专利,但我们并不是说,「嘿,我们认为这是正确的发展方向。」我认为在 AI 行业中,没有人能给你一个非常明确的答案,比如,「嘿,如果你这样做,这里是结构。这将确保你在长期内获得最佳结果。」
我认为这样的思考并不好,但我同意。行业内的每个人都在尝试新事物,我们看到的很多公司,正如你所说,将会遇到某种法律问题。还有音乐生成平台,等等 —
图片
主持人:我认为这似乎是 AI 行业普遍的故事,对吧?
Jesse Lyu:有 YouTube 的培训视频可以被这样或那样使用。还有各种各样的事情。但我认为,不仅是构建者在适应,行业也会适应构建者。
某个时候,肯定会得出结论,「好吧,这是一项新政策,这些是我们需要遵循的新条款。」
主持人:你们是在朝着那个目标努力吗?我觉得,这正是我思考所有这些事情时的一个重大问题。
基本上,每个 AI 产品都是一个技术解决方案,领先于法律体系或商业交易的现状。某个时候,Spotify 可能会出现在你们的门口,说:「你知道吗?我们不再允许代理使用,必须是人类用户,我们会修改我们的服务条款,规定必须是人类用户。」
DoorDash 可能会这样说,其他公司也可能会这样。你们准备好应对这种结果吗?你们有预算来聘请律师打这场官司吗?
Jesse Lyu:不。目前我们没有资源来打这场官司,而目前这对我们来说并不是一个真实的威胁,因为他们说我们太小了。
主持人:(笑)说得好。你认为转折点会在什么时候出现?
Jesse Lyu:我认为这对我们不是死胡同,对吧?
主持人:不,我是说你认为什么时候会转折?你认为什么时候会谈到是否可以有智能体用户或人类用户?
Jesse Lyu:是的,这正是我所说的。我认为他们不愿意改变他们的条款。我认为他们不太可能会规定必须是人类用户。
这是不可行的。已经有很多自动化工具存在。没有回头路可走。我认为他们希望与任何公司,包括我们合作,当他们看到对这种新型代理技术的需求时,他们想要收费,然后我们让用户和我们一起为此支付,这就是一项商业交易。
这更像是金钱条款。我能看到的就是这样。但就目前而言,我们并没有违反他们的条款和协议。如果他们明天改变条款和协议,我们会看看,看看如何适应。但代理技术已经存在。
已经有很多代理在运行,因此我认为没有回头路可走,而且说「嘿,我们要停止代理使用我们的服务」几乎是不可能的。
这不会发生。
没必要重复造轮子,而是考虑如何将技术转化为产品
主持人:从最长的时间线来看,假设一切都顺利解决,你认为要多久和花多少钱才能使你们试图构建的一般用途智能体达到百分之百的可靠性,能够完成我们想象中的所有事情?
Jesse Lyu:我可能有不同的看法。我认为像 OpenAI 这样的基础模型显然筹集了巨额资金。
我们从他们的工作中受益,因为他们的主要服务是将模型作为 API 出售,这节省了很多资金。我们不想重复造轮子,重新训练一个大型语言模型。
我认为这可能没有很多人想象的那么可怕。我认为将最新技术转化为产品与推动更高级技术之间存在巨大的差距。显然,我非常支持高端研究。我们希望在这里建立一个研究中心,规模与 OpenAI 和 DeepMind 相当,尽管他们已经远远领先。
但我认为我们目前所做的事情,因为我们的资金有限。我们没有 10 亿美元,也没有 20 亿美元。我们的预算非常有限。那么,我们如何将最新的技术和研究转化为可以快速发布并收集反馈的产品呢?
很多人对 AGI 有不同的定义。我不太谈论这个术语,因为我认为很多人对它有不同的理解。但我确实认为 AI 理解你所说的内容,并能帮助你做事情,也许在这里我们谈论的是虚拟地帮助你点击按钮等。有很多公司正在做类人机器人,实际上是为 AI 提供手和腿去做事情。
我认为这是人类整体的努力,许多资源可以共享,而不是每家公司都必须为这笔资金筹集,花费同样的时间来实现相同的目标。
因此,很难说,但我们知道我们需要更多的资金和资源,这是肯定的。但我认为你已经看到这个团队在 7 个人、17 个人到今天的高效表现。我们筹集的资金明显少于 Humane 或任何大型公司。我认为这实际上是我们的一个优势,让我们能够以相对高效的方式快速完成事情。
主持人:从时间线来看——再次假设一切顺利,你认为一年后你可以在所有基础模型和其他投资的基础上构建出一个能够在网上执行我所有请求的产品吗?还是说五年后?你认为呢?
Jesse Lyu:我认为 AI 模型将会迅速变得更加智能,但我们现在讨论的实际上是一场技术时代的变革。
显然,我们不希望 2024 年的技术在 eBay 的网站上运行,而那个网站基本上是 1990 年设计的,对吧?所以我认为很多基础设施需要更新,而我看到的最大差距在于生产化。
因此,在我们的路线图中,我们认为很可能在明年某个时候,我们可以将 LAM playground、Teach Mode 和 rabbitOS 等所有独立的技术合并成一个新的 rabbitOS 2.0。这实际上将朝着这个通用目标迈出重要一步。
但我总体的看法是 AI 模型足够聪明,但要将它们应用到实际操作中,还需要大量的基础设施支持。研究和实际应用之间存在着巨大的鸿沟,这是我们学到的重要一课。
因此,我会说在三年的期限内我非常乐观,但我认为,如我所说,从现在开始到明年,大家都会尝试不同的方法,我们将看看哪个有效,但我相信我们现在采取的方法是正确的。
主持人:我想最后问一下关于形态因素的问题。显然,Rabbit 是一款非常独特的硬件,受到人们的喜爱。我们最近看到很多有趣的眼镜,大家在讨论,我们会不会在脸上装上摄像头,而有人会开发出显示器。
你认为这种趋势是正确的吗?我昨天戴着 Meta 的 Ray-Ban,心想,为什么我会一直戴着这些?我宁愿选择其他东西。
图片
Jesse Lyu:我对任何形态因素都没有反对意见。实际上,我认为未来会出现很多形态因素。但是在设计 R1 时,我们知道它不会是智能手机,因为我们知道人们在智能手机上会做很多其他事情,而当前的 AI 无法处理。
因此,我们故意避免了智能手机这个形态因素。谈到激光 Pin(这里指 Ai Pin)和眼镜——我对每种形态因素都有不同的看法,因为这里没有普遍适用的规则。先谈谈激光 Pin。
我对将其设计成像 Humane 那样的激光 Pin 的反对意见是,首先,我觉得这个概念很酷,但我认为风险太大。你试图提供一种新方式让用户使用你的技术和软件,而这对他们来说已经是新的,你不想仅仅引入一种科幻类型的设备。所以两个新东西叠加在一起是太冒险了。
图片
如果你看看 R1,它的设计非常熟悉。你知道有一个按钮,你会去按,知道那个轮子可能可以滚动,还有一个屏幕,你可以查看内容。
因此,R1 的设计在某种程度上非常保守,这在一定程度上降低了软件的风险。
就像在 2016 年,人们还没有完全弄清楚如何在虚拟世界中互动,突然之间就有 200 家公司开始制造头戴式显示设备,但它们最终都未能成功。
所以我对硬件的外形设计非常谨慎。至于眼镜,那就是另一回事了。
我认为人们的头骨实际上是适应眼镜框架而生长的,而不是相反。我曾经戴过处方眼镜,我知道那种不适,头骨是为了适应镜框而生长,而不是相反。
因此,我认为眼镜框没有通用的适配性。我和我的设计团队开玩笑说,「也许如果我们做眼镜,我们会做成龙珠风格的那种,」就像能量阅读器之类的。
主持人:像旧版 Google Glass 的形态?
Jesse Lyu:我无法理解「我必须戴上一个不合适的框架」。所以我们拭目以待。我认为当前的智能手机是完美的。
我真的很喜欢玻璃或屏幕的平板形态,但这里真正的问题不是形态因素,而是应用程序。
因为现在我们看到所有这些智能体技术、AI 等,它们在做应用程序可以做的事情,也在做应用程序无法做到的事情,所以我认为问题在于应用程序。
主持人:我刚想问的主要问题是:你有过多次创业经历,做了很多事情,现在有了一个大构想。你是如何做决策的?你的决策框架是什么?
Jesse Lyu:我是个非常依赖直觉的人。在大的方向上,我倾向于信赖我的直觉,比如预测未来会发生什么。但同时,我又相当谨慎,不喜欢对未来进行预测。
因此,我认为,当人们重温这一次(采访)时,他们可能会注意到我被你的一些问题搞得很困惑。我的大脑在进行预测时会停滞。我不喜欢做预测——比如如果发生 A,会发生什么,如果发生 B,又会怎样,你怎么看?
当我管理团队时,我告诉大家:「我们基于当前的事实做决策,找到最佳解决方案。」
如果你花太多时间——至少如果我花太多时间思考如果苹果敲门,你会怎么做?如果 A 发生,然后 B 发生,再然后 C 发生,你会怎么做?很可能你会得出不同的策略。
因为如果你认为 B 是解决 A 的问题——当 A 发生时,你就执行B。但有些人会问,「等等,你有没有想过当 A 发生后,D 发生,然后 E 发生,F 发生,你还会执行 B 吗?」
如果你这样思考,可能就不会。所以我选择不预测太多「如果」,而是根据当前的事实做出简短、清晰、直接的决策。
实际上,如果你回顾我们在 CES 发布的内容,时机可能是最好的。价格大概正合适,颜色也大概合适,而决定不与 T-Mobile 谈判、花六个月时间进行谈判的决定也可能是对的。
我做的是基于当前的决策,这就是我的风格。我与每个人沟通,团队中的每个人都可以随时找到我,随时和我交流。我花了很多时间与我的团队互动。
我们总体上是一个非常真实的团队,脚踏实地。我真的不喜欢一些初创公司,他们花太多时间享受这种感觉。如果你明白我的意思。但是有很多人会说,「哦,我是创始人,我很酷。」
不,我已经成长到可以摆脱这种感觉。可能就像我 21、22 岁时一样,但现在我 34 岁。
创业真的很艰难。这是一场战争。关乎生存。真的非常艰难。而且无论别人想做什么,你必须生存,仅仅依靠自己生存在任何意义上都是艰难的。所以这就是为什么很多人问我——我经常被问到,「好的,如果他们这样做怎么办?如果他们那样做怎么办?」
嗯,归根结底,你无能为力。你必须做好自己的事,他们会对此做出反应。我认为可以公平地说,像 Rabbit 和其他类似的初创公司,像苹果这样的公司会对我们做出反应。
他们对我们采取了一种敌对和非常不寻常的方式,他们推出了新手机,但所有这些东西仍然没有实现。
我们可能只是微小地影响了一下,但这并不重要。对我们而言,我们关心的是客户。有一点我想说的是,确实有很多错误信息,存在批评和负面反馈。如果你与 R1 的用户交谈,他们是快乐的。
图片
这才是我在乎的,否则会有很多退货,会有很多退款。我们的退货率不到 5%。把这个数字放到任何消费电子市场中,都是一个良好的基准。我们将继续推出所有产品。
在五个月内我们推送了 17 次 OTA,而其他公司可能才推送了 2、3、4、5 次 OTA。所以我真的希望人们能看到我们——我们是一群被低估的人。
我们的解决方案并不完美,但这从第一天起就是大卫与歌利亚的故事,因为这是现实,不要期待我们能完美,因为我们并不完美。我们筹集的资金非常有限,团队也很小,但我们动作迅速。
我们能保证的是,当 Rabbit 向你展示某样东西时,你可能在其他地方找不到。就像硬件一样,像 Playground,甚至像非常粗糙的第一版 LAM。我们是第一家可以将 Apple Music 流媒体播放到我们设备上的公司。
主持人:苹果公司是否因为你在网络上开放了这项服务而有此反应?
Jesse Lyu:我想说,我并没有收到法律文件,也许我会收到一份,但也许他们觉得我们太小了,但我们按照自己的方式做事。我想,这就是我想说的。我们是一个脚踏实地的团队。这就是我的风格。
主持人:是的,Jesse ,非常感谢你来到 Decoder,愿意回答这些问题。我真的很感激。
Jesse Lyu:我也是,感谢你的采访。