图片来源:20VC with Harry Stebbings
Z Highlights
现在是一个非常具有挑战性的时刻,因为初创公司的产品质量在很大程度上由模型的质量决定,而模型的变化可能会对初创公司的产出产生剧烈的影响,无论是编程软件还是法律平台,无论是什么。
关于DeepSeek的部分,人们似乎对它们有前沿研究团队感到惊讶。如果你一直在关注的话,这部分不应该让人感到惊讶。如果有的话,我们在两方面的投资稍显不足。第一是对第一方产品的迭代速度更快的投资;第二是在API方面的投资。
如何在发布的速度和质量之间找到平衡,知道我们想将新功能推向世界,但又不知道它们会如何被接受;你希望从中学习。但随着你积累了声誉或依赖,大家开始依赖你来进行工作流的管理。你不能完全随意处理这一点。
低估或继续低估中国在前沿技术领域的培训能力绝对是一个错误,特别是如果他们获得计算资源,并且继续进行创新。
Mike Krieger,Instagram联合创始人,Anthropic首席产品官 。在本次节目中,他与Harry讨论了AI世界中价值的创造和维持,以及Anthropic从DeepSeek中所习得的。
在AI世界中,价值将如何被创造和维持?
Harry Stebbings:Mike,伙计,我太激动了。我刚刚散步的时候,几乎听了你去年做的每一集节目。我之前告诉过你,我不想从“你是怎么进入科技行业的”这种常规问题开始。我想从一个非常具有挑战性的问题开始,作为今天的风险投资者,我必须确定未来的价值所在。我看着今天的世界,却不知道答案。所以,我的问题是:当我们展望未来,在接下来的十年里——AI驱动的时代,我们的价值将在哪里创造?
Mike Kriege:这是一个很棒的问题,我经常从企业家那里听到它。从最初纯粹做创业公司,到现在经营一家部分帮助新创业公司创建或提升其命运的公司,我经常被问到:我可以做什么,以避免走入Antropic或其他类似实验室的道路?我没有完美的答案。但最终最有价值的地方,是你有某些独特的市场进入方式、对某个特定行业的独特知识,或者是你唯一能访问的特殊数据,理想情况下,最好是有两个或甚至三个这样的特点。所以那些处于金融、法律、医疗行业的公司——我接触过医疗行业,它确实是一团乱麻。前期的工作并不吸引人,实际上也不是你能在加速器或短时间内完成的工作,但它是你投入的基础工作,这些地方是能够创造持久价值的地方。
然后你可以处在一个位置,在那里可以充分利用基础模型的优势,必要时做自己的微调,必要时做自己的AI专业化,但最终能够长期持久发展的,是能够进入这些地方进行销售,拥有对这些地方的独特理解,并随着时间的推移在这些地方得到改进。
Harry Stebbings:当你提到那里的工作量时,我在想,你说到差异化的GTM和差异化的数据池或数据源,这一代的AI浪潮是有利于那些已经具备这些并能够实现AI的现有垂直SaaS公司,还是更有利于那些新创建的底层公司?哪一个更有利?
Mike Kriege:这是一个很好的问题,这两者都可以。从最高层面来看,关于AI和产品设计的核心问题是,你必须在展示未来和设想模型当前能力的边界之间找到一个非常微妙的平衡,因为你希望设计出未来三个月,甚至更短时间内的产品方向。这个变化速度非常快,但又不能过度承诺而无法兑现,因为那会破坏信任。如果你是一个初创公司,你可以稍微做一些过度承诺,因为人们会在早期采用者阶段对你的产品进行测试,他们更愿意进行一些尝试和互动。
但如果你是一个现有的垂直SaaS公司,情况就更困难了。我们添加了AI,结果大家试了之后,发现效果不如预期,或者说,我以为它能做这些事情,或者你说它能做30件事,但只做了其中2件。实际上,这两类公司面临着非常不同的挑战。对于前者来说,你已经有了成熟的产品和用户行为,你希望能够滑向未来的发展方向,但又不能疏远现有的客户。我们可以深入探讨这个问题。其实是有一些很好的模式可以实现这一目标;而对于初创公司来说,你可能还没有足够的数据,可能是在寻找最初的“灯塔客户”,或者你没有现成的客户关系。但你有一些假设,认为AI将在某个行业或垂直领域产生影响。你的差异化并不在于现有的关系,而是在于描绘未来,并找到快速为愿意冒险的公司提供价值的方式。
为今天的模型构建产品还是为未来的模型构建?
Harry Stebbings:你提到初创公司要为模型的未来而构建。现在是一个非常具有挑战性的时刻,因为初创公司的产品质量在很大程度上由模型的质量决定,而模型的变化可能会对初创公司的产出产生剧烈的影响,无论是编程软件还是法律平台,无论是什么。初创公司应该根据我们今天拥有的技术进行构建,还是应该根据能够预测的未来进行构建?
Mike Kriege:这是一个非常好的问题。我从很多人那里听到过类似的说法,他们说我的公司在Claude 3.5版本发布之前都不算是公司,或者是第二个Claude 3.5版本发布之后才算是公司。我从一些创业者那里听到,某家公司直到经历了小的突破,模型准确率从95%提高到99%,才算真正成为公司,这个准确率已经足够满足这个行业的需求了。
有时候,变化可能是从70到90之间的跃进,有时你会看到这种代际飞跃。那么,如何判断这种变化在哪里呢?比如,有时候创业者在某个特定领域内一直在撞南墙,无论是帮助人们编程,帮助进行法律分析,还是在医疗保健等领域,他们拼凑出来的东西,或者说他们精心组装的版本,可能涉及了多个工具,并且往往在价格上没有竞争力,因为它需要一个庞大的模型,这个模型不能得到底层业务的支持,但它依然值得做,因为当那个模型到来时,你并不是从零开始。
因此,往往从这些模型生成的转变中受益的公司,并不是那些突然从那一天开始的公司,比如说“Claude 3.7 SONNET可以做到”,而是那些一直在与之抗争的公司。拿Cursor为例,有人给我看了一份Cursor创始人在Hacker News首页提交的列表,最终它突破了,但这并不是他们的第一个产品或第一次迭代,他们一直在尝试,努力了多久我不完全知道,但总之,这并不是模型迅速启用的结果,它源自于那种建立背景、积累知识、积累经验的过程,了解在那个领域中什么是失败的,什么是成功的,从而使得模型能够解锁你的潜力。
说得更简洁点,不要等待模型变得完美,要在这个领域中进行探索,为当前这一代模型感到沮丧,并且要积极尝试下一个模型——你觉得它现在终于能实现你心中设想的东西,只要这些模型的能力稍微更强一点。
Harry Stebbings:伙计,我得问一下,当你说到差异化GCM、差异化数据时,你又说,有这么多不同的发布,速度如此之快,我不知道该怎么说,如果模型层没有差异化的数据游戏,这个模型层还有价值吗?是差异化的GCM游戏吗?你是怎么理解的?
Mike Kriege:我觉得这是几个不同的方面。在模型层,特别是在基础模型层,我想了三个值得投资的地方,能够在市场中占有长期一席之地。
第一个是人才。我知道很难量化,人才到底意味着什么?人才密度意味着什么?但是,人才孕育人才,对吧?你要么成为一个吸引者,尤其是在围绕一个统一的使命,或讲述你为什么构建某个东西的故事时,人才会自然而然地聚集。我在Anthropic见过这种情况,我很喜欢我们的研究团队,每个月都会有一些新的重要人才加入,可能来自其他实验室,可能来自学术界,加入了我们。因此,这是你必须培养并保持的优势,因为人们显然是自由的,他们可以做自己想做的事。所以你必须保持最初吸引他们的那个东西,但这一点很重要,因为要站在前沿,光是做同样的事情是不够的,还需要弄清楚什么才是正确的突破点。所以这是其中之一。
第二点是,我认为模型随着时间的推移会变得越来越不同,而不是越来越相似。当然,很多人都在关注类似的基准测试,但Claude有它独特的特点,GPT也有它的特性,它们各自有优缺点。这一点不仅体现在字符和语气上,还体现在这些模型真正擅长的领域。对我们来说,显然是编程,这是我们追求的一个重要领域。这不是偶然的,也不是我们仅仅说“好吧,它擅长编程,那我们就继续做编程”。看到这种吸引力,看到现在有很多公司依赖模型进行编程,比如编写代码或进行代理式规划,这激发了我们在强化学习方面想要做的下一代技术。因此,第一个因素是人才。第二个因素是关注度和模型特性的不断发展。
第三个因素是,当DeepSeek发布时,我被问到过很多次这个问题:“DeepSeek对你来说意味着什么?”我认为从技术角度看,我们从他们做的事情中学到了一些东西。但从市场推广和市场定位的角度来看,它几乎没有影响。原因是,我们与公司建立的关系并不是“你注册了API,你只是想以某种速率交换输入令牌和输出令牌”,而是“嘿,我想成为你们的长期AI合作伙伴。我希望和你们的应用AI团队一起共同设计产品。我们不仅要考虑API,还要考虑Claude for work。”所以,这更像是成为一家企业,这听起来可能有点老套,但这正是你提供给人们的AI合作伙伴关系,而不仅仅是AI模型。
越是单纯地做这些,可能就越需要反过来思考——失败的模式是什么。问题在于安于现状,或者没有留住最优秀的人才,单纯认为在每个基准测试中把模型逐步改进就足够了,然后把API当作一种仅仅交换“金钱和智慧”的方式,而没有考虑如何成为更深层次的AI合作伙伴。
如果你不能做到这三点,我认为你就会陷入困境。
Harry Stebbings:我确实想一会讨论编码的部分。我必须问一下,当我们识别阻碍时,现在你认为最大的障碍是什么?因为这个问题,我从不同的人那里会得到完全不同看法,无论是Alex Wang还是Grok的Jonathan Ross。什么是障碍呢?计算、数据、算法?
Mike Kriege:就是如何获得那些训练模型的环境,使其能够更好地匹配现实世界中的挑战,而这些挑战不是单一的。我知道Alex也在思考这个问题,因为我们讨论过评估代理行为的方式,这就像是我所说的更广泛问题的一个非常具体的版本,即便是在软件工程的范畴内,软件工程师的工作不仅仅是写代码。
他们需要理解要生产什么,和产品管理团队一起规划时间表,深入理解需求,并深入了解他们所构建的用户使用案例。然后,还需要以一种可以进行测试、迭代并根据用户反馈不断改进的方式交付他们所构建的内容,如果他们是在构建某种面向公众的产品的话。这是非常困难的,没有评估方法能衡量这一点,对吧?
有意思的是,我们把最常见的软件工程事情称为SUI基准,实际上,要成为一个SUI远不止是查看一个pull request、提交一个pull request,或者将其提交给stiff然后决定是否接受。所以,构建更能反映这些的环境和评估方法……我们在Anthropic里经常思考办公专业人士的问题,这是这些模型未来可能会大规模应用的一个用例。现在没人真正很好地评估这个问题。关于研究的部分,我们开始在评估方面做得稍微好一点。
有一些非常复杂的评估方法,我这么说是出于善意,比如人文学科的最后考试,它更多的是考察多步推理,但还没有出现那种我刚进入新工作,迅速理解自己的角色是谁,组织中谁是谁,彼此之间的关系是怎样的,如何去找需要的额外信息,然后融入到公司日常运作中的评估方法。这是一个很难捕捉的环境。因此,对我来说,如何更好地将其分解为不同部分,这可能是其中的一部分故事,但同时从整体上思考是推动进展的最大障碍之一,至少在某一领域是这样,那就是如何让模型从极其擅长特定领域的任务变成更为通用的、有帮助的协作者。
未来是人类数据还是合成数据更为突出?
Harry Stebbings:在我们深入探讨这些专业化产品之前,关于数据这一方面,我最近请到了McCall的Adarsh,他显然刚刚筹集了那笔大资金,我问了他一个问题,也很想听听你的看法:当我们展望模型中数据的未来时,是否会有更多合成数据相互叠加,还是说,人类数据将继续成为推动模型进展的主要数据源?你是如何看待这个问题的?
Mike Kriege:为了让模型得到改进,你确实需要围绕如何可能用人类数据来给它提供一些基础,然后它可以生成这些合成的环境,通过这些环境它能够进行路径规划和探索。本周Claude一直在玩宝可梦,这对我们的研究和工程团队来说是一个有趣但有点好笑的消遣。大家都在做什么呢?他们就说,哦,我们在看Claude玩宝可梦的直播。游戏是一个有趣的例子,你可以想象在某些限制和规则下,很多不同的玩法都可以通过同一个游戏来实现。当问题空间不像你知道的那样明确时,这就变得更加困难了,比如你是否成功走出绿岭森林?我从来没有玩过宝可梦,看这个直播我也在学习。但能够走“黄金路径”,同时又能通过它合成多种方法,这仍然很重要,这样你就可以思考模型如何在面对不确定性时不断进步。
所以我认为这必须是一个混合的过程。我认为最好的模型会来自于这种结合:比如对于代码来说,拥有良好的代码基础理解和优秀的示例,但同时也能通过它探索非常广泛的路径。另一个我认为仍然被低估的部分是,如何衡量、评估并获取与角色相关的数据?
我将使用一个非常宽泛的词,那就是“氛围”,对吧?使用一个模型到底是什么样的感觉?我们直到真的坐下来玩一玩,才真正知道,这在某些方面也算是它的一个不错的特性。因为它意味着几乎有一种非常定性的、人类化的特性。但这也意味着你没有很好的回归测试。有时候我们会从Claude 3.5升级到3.7,人们会说,哦,Claude似乎更友好了,但语气更简短了,或者Claude似乎更愿意回答我的问题,但我希望它在创意写作上能更好。这些东西并不容易评估。这又回到数据的问题。
所以,能够拥有这些更软技能的数据是非常重要的,同时也要有对它们的评估。
Harry Stebbings:你知道我觉得奇怪的是什么吗?我觉得奇怪的是我们现在可以选择模型,你可能会说,当然,因为它们之间有专业化的区别。但我认为如果你把视线放远三到五年,你将不会再选择使用哪个模型。这就像是选择你用哪个谷歌一样。我完全错了吗,还是我完全没理解重点?
Mike Kriege:不,我喜欢一个概念,我的背景是在人机交互领域。你可能听过“Leaky Abstraction”吧?也就是说,软件开发者会尝试完美地将所有复杂性封装在某个小外壳下,然后用户不需要考虑这些事情。现实情况是,大多数AI产品设计的当前状态是一种极其“漏”的抽象。选择模型这件事,就像是为什么你要在Opus、Haiku和Sonnet之间做出选择。大多数人并不理解其中的区别,对吧?或者如果你去OpenAI,选择一些模型,那里有很多模型,而且每一个模型都有其存在的合理性。然而,总体的体验是,为什么我要选择其中一个而不是另一个呢?这个模型有这个功能,而那个没有。我们也有这个问题——所以,模型选择是一个问题。
第二个问题是,一旦你理解了这些模型是如何构建的,它们会建立语境,它们有回合,每个回合实际上都会重新播放完整的上下文。这就是它能够做出下一个推理的方式。这样会导致一种体验:每次对话都不一样,我总是觉得,就像你和一个同事聊天,你可能会有不同的电子邮件线程,但背后始终是同一个同事。如果你提到某个他们喜欢的体育队,或者提到你们一起做过的项目,并不会出现“哦,我不知道你在说什么,或者我得去找我的记忆”的情况。它更像是一个共享的基础部分。我们强迫人们理解这些模型的方式,我觉得不应该是这样的。
最后一个问题是提示。尽管事情已经发展了很多,我们也做了很多工作来处理如何将简单的人的提示转化为那些对模型最优化的提示。我想让这个过程对人们完全透明,而不是让他们在使用时感到困惑。如果模型对问题缺乏清晰度或者需要更好的理解,它应该参与对话,而不是让人们看到谁是非常擅长提示的人,谁又不是。现在,这个差距在一代代的生成中逐渐缩小,但我认为我们需要进一步缩小它。
模型质量与产品用户体验的关系
Harry Stebbings:你如何看待模型质量与用户体验(UX)产品之间的关系,如何优先考虑它们,并思考这两者之间的关系?
Mike Kriege:这两者已经无法分开了。我刚才在一个产品评审会议上,正好在我们的通话之前,我在想Instagram的产品设计会议。它是像素、一些合成数据,或者可能是实际数据,我们拿我的动态并将其重新格式化为我们提出的这种UX设计,但这里面没有太多的不确定性。
你将它发布到世界上,也许人们会以某种方式使用它。但今天的设计师、产品经理以及工程师们需要思考的是,我实际上在做的,是围绕本质上是非确定性系统来设计框架和产品。这意味着评估、模型质量、后端的提示等,都是产品设计的一部分,并且会对产品的实际效果产生直接影响。
举个例子,你可以提示Claude提问后续问题,或者不提。这可能在产品的某一部分是你想要的,但在产品的另一部分可能就不是了,对吧?你可能会提示Claude去深入思考某个问题,做更多推理,或者不做。再次强调,这些都是在产品设计阶段做出的决策,它们将在实际产品中体现出来。
另外一点,我们之前提到过,作为一个初创公司的创始人,或者做传统B2B SaaS的人,你需要弄清楚模型的位置、它们的发展方向以及用户需求的结合。在你的产品设计中也是如此,你需要提前做评估,看看你所做的事情是否能够在当前模型下实现,或者至少对它们的变化有所预见。
但是,模型会随着时间变化,产品也会变化。如果你没有一个很好的评估框架,甚至是回归测试这些评估,你可能最终会推出一个产品,三个月后人们会说,哦,这个产品曾经很好,但现在已经发生了变化,不再满足那个需求了。而你却不确定是这三者中的哪个发生了变化,是模型?是产品?这是引入了一个不同的功能吗?系统的道具变长了。从很多方面来说,这是我做过的最复杂的产品开发工作。
AI的竞争格局
Harry Stebbings:我在伦敦采访了OpenAI的Sam,他说作为一个初创公司,他们的乐趣之一就是能够更快地发布东西,并且它不必完美。实际上,随着公司变大,每次发布都会面临越来越多的压力和负担。你怎么看待这一点?发布不必完美。我们把它交给用户,而不是现在像Anthropic这样一个拥有数百万用户的大公司,它必须要完美。作为产品负责人,你如何看待这个问题?
Mike Kriege:我经常考虑这个问题,特别是因为你有不同的产品界面和不同的受众,他们对稳定性的期望不同,或者说对站在前沿的渴望也不同。在一个API产品中,人们最看重的是可预测性和稳定性,以及自愿选择一些更面向未来的功能。所以,这些功能可以是完全自愿选择的。
我记得我们推出了道具缓存,这为用户节省了大量成本。但最初,我们是通过一个Beta标签来推出的,用户必须选择加入。我们在API上做的很多工作都是以这种形式进行的。如果你这样做是为了面向消费者的产品,那就很无聊,必须让用户选择加入。你希望能够迭代地发布产品,并与用户一起进行实验。你不希望彻底破坏他们的体验,但你也得拥有更多的权限。
然后我们还有这些企业客户,他们在企业中使用Claude for Work。现在,我认为AI在企业中的采用仍然是一个早期采用者的产品。所以,你可以做得更多一点。我不知道Salesforce一年发布多少次版本,但我知道很多公司一年发布两三次。
而且这些发布通常都是围绕一些大事件进行的,而我们离那还很远。我们仍然在快速发布产品,但仍然在寻找平衡点。是按月发布吗?是尽可能频繁地发布,但每个版本都需要管理员选择加入,这也增加了复杂性。所以,这真是个好问题,这是一个我们正在积极讨论的话题——如何在发布的速度和质量之间找到平衡,知道我们想将新功能推向世界,但又不知道它们会如何被接受;你希望从中学习。但随着你积累了声誉或依赖,大家开始依赖你来进行工作流的管理。你不能完全随意处理这一点。
Harry Stebbings:我们是不是陷入了产品营销的噩梦?我的意思是,我们这周有DeepMind发布了新的产品,我们这周有OpenAI发布了新的产品,我们这周还有Anthropic发布了新的产品,甚至10天前Mistral也发布了新的产品。每天都有新的发布,世界上可能会因此变得麻木。你怎么看待这个现象?这又是如何影响你对产品发布和信息传递的思考的?
Mike Kriege:是的,现在的竞争更为复杂。以前你需要关注的重大事件通常都是提前知道的。比如,别在WWDC周期间发布任何东西,那时会有大量的公告,或者在九月的iOS发布会上也会有很多东西要发布。你还可能会遇到其他大的事件,比如假期,从产品营销的角度来看,那时的情况要简单得多。而现在的情况有点像过马路时,你站在那儿,看着车过去,然后等着车流有间隙。就像“明天发布”或者“现在发布好像可以”,但“哦,等一下,听说有个新的传闻”,所以现在真的更难了。
我听说其他公司也是这样,每个人都在努力解读市场的动向,看看什么时候发布合适,“现在安静,是不是可以发布了?”或者“我觉得我们可以下周二再发布”。现在的情况真的变得更复杂了,完全需要一种不同的应对方式。我必须称赞我们的产品营销团队,因为他们从一个点出发做出了改变,记得我们当时被称为Claude 3.7 SONNET。那个时候我们选择了在周一发布,而我们在周日晚9点才锁定博客文章,这从营销角度来看并不是最佳做法。我们那天还在星期天给媒体做简报。非常感谢那些星期天帮忙的人,但这就是我们的做法。那时一切都准备好、锁定了,才能发布。所以这确实需要迅速反应和灵活应变的能力。即使像我们发布模型时,有一个模型卡、评估以及对比表,这些对比表里的内容可能是在之前一周就发布过的,比如Grok 3就是在一周前发布的。
Harry Stebbings:当这些产品发布时,比如Grok 3发布时,发生了什么?开玩笑说,当Anthropic和OpenAI听到这些时,大家是不是都会想,“哦糟糕,他们又赶在我们前面了!”或者“好耶,我们赢了!”
Mike Kriege:我觉得这需要我做的其中一件事是,支持团队时要提醒大家,模型发布会发生。任何时候你都可能会经历那个周期,像是“已经结束了,我们又回来了”。你必须在AI领域经历这一点,不可能因为一次发布而气馁,因为这确实是不可避免的。
有时候你很幸运,发布的模型或产品在接下来的两三个月内,仍然是你所关心的领域中最前沿的技术。也有时候,它可能只会持续一周,你不能过度反应,不能安于现状。
我认为非常有用的一点是,我在几乎每次销售电话中都会展示一张图表,它从Anthropic的成立到今天,标出了每个里程碑。任何时候,你都可以说,哇,Claude Ⅱ已经远远落后了,哦,Claude III是最前沿的技术。现在,它不再是最前沿的了。你得看这个趋势,并相信你会继续改进,这是最重要的。
第二点是提醒自己,如果每个人每天都因为某个评估的变化而切换,那对你的用户来说,作为软件提供者,那将是疯狂的事情。但是,更重要的是,这将让整个行业变得更加疯狂。你会开始意识到,大家不仅仅是在部署模型,他们还在进行微调,或者部署模型,并且为特定的应用场景做了大量定制化工作。这个过程不会一夜之间改变,或者你也不是在模型选择器中三四个选项之一,举个例子,在编码环境中。
所以你仍然处在竞争中,你仍然有机会,但这确实需要,不确定是找到一种冥想般的放远视角,还是只是习惯这种颠簸的过程,或者两者的结合。但无论如何,每次模型发布时,我都会假设每个实验室都在看着长期的直播,观察评估结果,无论是哪种方式,接下来我们都得开始工作了。
Harry Stebbings:我认为品牌是最重要的。就像你说的,人们不会每天都在切换,他们会觉得,“哦,我是Claude的人”或“我是ChatGPT的人”,他们已经对自己的模型有了认同感。你同意这个说法吗?还是你觉得这个说法太简单了?
Mike Kriege:我认为这是对的,尤其是在消费者层面。我刚刚在读Ben Thompson的文章,你知道,他经常邀请Nat Friedman和Daniel Gross来谈话,他们讨论过一些人是Claude的人,另一些人是ChatGPT的人。我认为这种情况肯定会发生,你会喜欢某个产品的个性,喜欢它的界面设计,喜欢它的氛围,实际上,它让我想起了很多以前的事情。我们多年来和Snapchat之间有过一些有趣的互动,还有Instagram。甚至在那之前,人们曾经推出过类似Instagram的新产品,不过这些产品是为了超级高端的摄影师,或者有一些额外的特点,比如一天只发一张照片,这就像是Be Real。
我曾经有一个“假公式”,我不是数学家,显然不是人类学家,但这个公式是这样的:社交网络是由产品格式、受众和氛围构成的。对于Instagram来说,我们有故事功能、动态页面,然后最终有了视频功能。最初的受众是一些有点“小众”的摄影师,后来逐渐扩展到所有对视觉叙事或视觉媒体感兴趣的人。
但Instagram的氛围,即使我们与Snapchat或Facebook的产品相似时,氛围也是非常不同的。我现在不知道AI产品的“假公式”是什么,但我认为它可能有某种版本,包含模型。模型的个性可能是其中之一。产品的框架性、规定性也可能是其中的一个因素,然后是氛围,虽然很难衡量,但绝对存在。
Harry Stebbings:当我们有这么多不同的模型和这么多不同的提供者时,开源确实是一个非常可行的路线。蒸馏是有些模糊的方式。如果蒸馏最终推动了这个领域的进步,那它真的错了吗?
Mike Kriege:在实验室内部——我假设每个实验室都在使用——即使是他们自己,能够从最顶级的模型中提取知识,然后使其具有更低的延迟、更具成本效益等,都是非常有价值的。所以就有了这样的循环。总的来说,我认为这变得有趣的地方是:首先,我们是否希望任何国家都能够从其他国家的模型中提取蒸馏模型?
我的个人答案是否定的。即使AI在增强能力,我们也应当非常慎重地从国家安全的角度来看待这个问题;其次,关于这些进展能否保持目前的速度,长期可持续发展,我们确实需要实验室能够实现商业化,能够利用所有的训练和创新等。找到适合长期发展的模型非常重要。
我认为像LLaMa这样的开源模型,比如它们能够从自己的研究、数据摄取和训练中做到这一点。所以,我想说,蒸馏并不是解锁这些内容的必要条件,反而会带来其他问题,甚至仅从服务条款的角度来看。
Harry Stebbings:LLaMa是否表明模型本身没有价值,所有的价值都在数据中?如果Facebook愿意免费提供,因为他们知道没有人能复制他们的数据,这是不是它所展示的意思?
Mike Kriege:我觉得这是一个很好的、有趣的问题,像LLaMa的质量是否因为他们可以——不知道他们有没有说过——但他们显然可以在Instagram和Facebook等数据上进行训练,还是Gemini因为能够在YouTube上训练而更好?
我其实很清楚Gemini从中受益。当他们展示出良好的视频理解示范时,我会想某个公司可能拥有世界上最大的视频资料库,并且很可能在这些视频上进行大量训练。至于Facebook方面就不太清楚了。我从来没听到有人说,“哇,LLaMa做得特别好,能够生成在社交媒体上效果非常好的内容。”它似乎更像是一个很好的通用模型。所以我实际上会回到我们之前讨论的价值。价值全在于你的团队有多强,你是否拥有进行训练所需的基础数据。但同时,你的模型在实际应用中的效果如何,这才是最重要的。
我很希望一开始就从这个问题开始,因为不管evals如何(ZP注:Evals 是一个用于评估模型的框架),evals在模型提升和内部研究中非常有用,但它们并不能讲述“这个模型是否能在它需要擅长的领域表现出色,或者即使它在某个领域表现出色,它是否只是非常狭窄情境下的优秀”;或者,作为一个在实验室外的创业者,你能否依赖这个模型作为你的代表?
所以,我认为价值来自实验室,来自团队,来自模型在现实世界中真正执行正确操作的能力,而不是因为非确定性太高,导致它变得不可靠。
我们是否低估了中国AI的能力?
Harry Stebbings:我想问一个问题,这不是一个陷阱。我和Alex Wang在节目中谈到过这个话题,我在节目中看到他说过,我们严重低估了中国在AI方面的能力。你同意我们低估了它吗?
Mike Kriege:是的,我认为DeepSeek这部分让人们感到惊讶,因为那里有一些前沿的研究团队。如果你一直在关注的话,这部分本不应该是令人惊讶的。我们看到Instagram在中国很早就被封锁了。然后我们看到了一种平行的创业公司世界的出现。当你“拿开”Facebook和Instagram,有些事情发生了,有些新东西出现了,而那些产品往往质量非常高,它们展现了很多创意思维,并且在规模上构建出来,解决了很多问题。
人们喜欢谈论像超级应用和微信这样的应用程序。而且,这些应用在规模上解决了一些技术挑战,这些挑战与Facebook所面临的挑战相同。因此,低估或继续低估中国在前沿技术领域的培训能力绝对是一个错误,特别是如果他们获得计算资源,并且继续进行创新。
所以我认为这是一种相当偏向西方的观点,我确实在更传统的软件领域中看到过这种观点,比如“他们只是复制已经在其他地方成功的东西”,这是一种90年代和2000年代初期的看法。实际上,也有一些产品在这方面采取了差异化的视角,并在中国市场内发展,甚至有时将其推广到国际市场。例如,TikTok就是一个很有趣的例子。
Harry Stebbings:在我们进入垂直化产品之前,DeepSeek是否让你重新考虑或改变了你前进的方式?
Mike Kriege:在一些架构方面,我不会代表研究团队发言,因为他们才是真正的深度专家。他们可能会认为,“哦,这很有趣,我们值得考虑”或一些曾经被考虑过的想法,可能值得重新评估。所以我认为这方面也是有价值的。这很有意思。我们发布推理模型时,计划已经是展示思考链条。所以这不是一个重新考虑的问题,但看到别人这样做还是很有趣。
此外,还有一些用户界面方面的细节,我认为Grok现在在他们的产品中也有类似的做法。我很想看看这方面是如何发展的,关于你提到的总结问题。这可能是更多实验室选择不展示,或以其他方式模糊思考链条的原因。另一个方面,从产品角度来看,有两个问题,我认为这是DeepSeek较少讨论的部分。
我认为他们能够从一个无人知晓的存在,发展到如今在许多圈子里比Claude更有名,事实上,GreyDoc还给我打电话询问关于DeepSeek的事情——我不是在开玩笑。就像陈词滥调一样,它确实发生了。我接到电话时,他们问我:“你怎么看DeepSeek?”我回答:“很好,突破了。”你认为他们做了什么打破了Claude没有做到的?现在世界政治的关注度非常高,而叙事是“这个更便宜”,无论这是否完全真实,或者其他什么,但他们能找到解决方案,这就是故事。
坦率地说,我之前和我们的营销团队也讨论过这个问题。我们目前还没有把Claude的故事讲得足够好,特别是在外部,关于Claude III有什么不同或值得注意的地方。比如说,Claude III,我们正在训练一个前沿的、最先进的模型,而我们的团队远比任何其他实验室的小得多,对吧?而且我们在训练过程中一直非常高效地利用计算资源。所以我不确定,这是否是他们讲的故事,还是媒体替他们讲的,因为这确实是一个非常有吸引力的故事。这个时刻的独特性是一个非常重要的因素。尤其是今年一月,新总统上任,中美关系的变化非常契合当时的时机,这非常有效。第二部分关于产品,他们从没有产品到拥有一个iOS应用程序,这个应用程序实际上有很多不错的细节。
对我来说,这是一个很好的“推动”,但比这更强烈,是一种推力,促使我们需要更快地把一些想法推向市场,不是过于关注每个细节的完美,而是愿意将其推出并进行学习,因为有时候,体验的新奇本身就具有价值。这对大多数人来说,是第一次体验这种“实时思维链”。这很有趣。我真希望我们能早点做到,因为让人们体验这一点会是非常新颖的。
Harry Stebbings:当你观察使用情况时,你会看到新兴市场的使用保持稳定,而西方市场几乎没有增长。你如何看待它们作为一个持续的、可信的威胁?
Mike Kriege:他们已经达到了某种程度的知名度,具备了保持用户留存的能力。如果我们在这些以AI为先的实验室生成的产品中,哪怕是六个月后或一年后,所做的只是提出问题,偶尔进行一些微小的主动性,那么这在长期内是没有差异化的,也不具有吸引力。它应该是,“哇,我现在可以做一些独特的事情,因为我正在使用Claude,或者我正在使用DeepSeek,或者这些任何一个产品。它为我解锁了几个小时的工作,并让我变得更聪明。它让我成为了我生活中重要人物的更好伙伴。”它必须超越表面上的效用。有些人会找到更深层次的价值,别误会我的意思。
这些人就是现在的日活跃用户(DAUs)。但对于很多人来说,他们会试着用它生成一首诗,或者写封信给他们的儿子。他们可以做很多事,在当下提供一定的价值。但我们仍然处于起步阶段,关于AI是否是大多数人工作中不可或缺的一部分,我认为大多数人答案是否定的。
DeepSeek和我们所有诚实的产品的持久力将来自于谁能够做到这一点,并且在时间的推移中持续做到,拥有正确的产品设计、正确的集成和正确的部署,才能真正取得成功。
从模型提供者转变为应用提供者
Harry Stebbings:谁能做出这些产品?这是我作为投资者经常问的大问题,就是当一个模型提供商转向成为一个应用提供商时,吸引力到底是什么,足以让你投入资源成为一个应用提供商,而不仅仅是一个模型提供商?
Mike Kriege:我们的团队——整个Anthropic虽然很大,已经超过一千人了,我们的产品团队可能只有其中的十分之一。按照Instagram第二年标准来说,这个规模算是非常大,但和大型SaaS公司相比,又算是非常小。我们介于这两者之间。我们现在提供很多不同的服务,比如,现在有Claude Code,有API,有Claude AI,还有Claude for Work。
所以我们覆盖了很多不同的领域。因此,通用性非常重要。即使选定了一个目标人物或垂直领域,我们也会遵循一个原则:构建通用性强的产品,可能在用户层面会有一些专业化,但我不认为我们会构建很多高度定制化、专门针对某个工作流或使用场景的垂直化体验。所以我觉得这是其中之一。
Harry Stebbings:但是我认为像翻译、转录、客户服务这些,都是比较横向的、同质化的东西,这似乎正好符合这个方向。
Mike Kriege:是的,除非有一点不同,我觉得存在很多有价值的工作流,比如工作流知识。这样你就可以随着时间的推移保持一个有差异化的产品。
Harry Stebbings:如果你是高级用户?
Mike Kriege:也许是。
Harry Stebbings:如果你不是translator,而是你的妈妈,可能每个月只用一次,只是做她需要的那件事。
Mike Kriege:是的。对于个人用户来说,我们能够帮助你翻译这段内容,而如果要让你支付每月10美元的订阅费用,可能会显得有些不太合理,因为这些模型已经非常好了。对,也许你说得对。如果使用控制台和工作台,你会发现他们构建的许多功能,显然是为那些翻译小时内容或者用可靠的声音来配音的工作流程而设计的,内容描述以及一些AI领域最好的产品设计。他们投入了大量的时间来优化工作流程。我曾经为一个个人播客使用过一次,然后觉得这显然是由那些每天处于这个工作流程中,并且理解它的人构建的。所以我们可能已经达成了一些共识,那就是在更专业的应用场景中是有价值的。而且通过这些工作流程,能够解锁一些功能。在面向消费者甚至是专业消费者这一边,从基础的AI产品角度来看,它已经足够好了。
Harry Stebbings:当你看到你今天在代码方面做得如此出色时,是否有计划将你自己的ID和代码agent纳入其中?你是怎么考虑这个问题的?
Mike Kriege:再次从产品的角度来看,我认为我们必须谨慎地选择我们的投注方向。甚至在构建方面,我们构建了Claude code,并且刚刚发布了这个内部的命令行agent编码工具,因为我们只是想加速自己团队的工作。几个月后看下来,我们觉得这个工具不错。它不是解决所有编码问题的方案,也不能取代ID,但在很多情况下,它对我们来说已经够用了,我们希望看到它在现实世界中被使用。所以发布并不是免费的,对吧?你必须给它取个外部的名字,找对包装,如果有市场推广的部分,也得小心处理。我对目前模型的看法是,你仍然需要动手键入,仍然需要那种交换,嘿,我做了这个,这样对吗?
我们继续往这个方向走。是的,这很好,提出一个请求;或者,不,我们走错了方向,像是误入歧途了。让我们比喻性地回滚一下堆栈,重新开始,然后继续前进。这就是我认为ID和完全认知开发之间存在一定角色的原因。完全的任务委派可以在某些任务类别中使用。
我们的产品工程师喜欢Claude code,因为很多产品工程工作都涉及到更新后端、创建前端、提交翻译等等。我们必须处理这些任务,比如说“哦,这个还是不行,让我再做一下”,这种从头到尾构建产品的workflow,和能够在不同的事情上保持一致地工作的工具非常契合。
上周我做了两个pull request,自从加入Anthropic以来我一直没有写过代码,这让我很难过。所以我终于能够使用Claude code了。之前我从未打开过我们的代码库,所以我并不知道它是如何构建的。但是Claude code非常擅长找到包含正确部分的文件并进行编辑。显然,并不是每个人都像我这样,但对于那些特定的使用场景来说,这真的非常有价值。
所以,当我思考编程领域和我们可以发挥作用、增加价值的地方时,我认为这更多是在“代理性”方面,而不是“ID”方面。其他公司每天都在思考如何做出一个很棒的ID,这涉及到低延迟的自动补全,正确的集成,如何与VS Code插件生态系统配合等等,这些都是有价值的工作,而且与我们所做的事情不同。我认为我们可以专注于与这些模型进行对话,做一些实际的工作,进入到那个agentic循环中,但要认识到,很多使用场景下,它们还不能像自由运行几个小时那样工作,你仍然需要更多的“人类参与”这一环节。
软件开发者在未来的角色
Harry Stebbings:你在与Cursor、Codium、Stack Blitz等工具合作时,有一个问题想问你:你怎么看待Bluntly,正如你所说的,自从加入Anthropic以来第一次编写代码,以及我们看到的开发者行为变化,你认为软件开发者在三到五年后的角色会是什么样的?
Mike Kriege:是的,我认为现在已经开始有所不同了。我曾是GitHub Copilot的早期大力支持者。我记得我的引用曾经出现在主页上,不知道现在是否还在,因为我看到了它的潜力,甚至在GPT-4发布之前它就具备了多模态功能,我曾用它做Swift开发。当时我会画出我在为Artifact构建的界面ASCII图形,然后去泡咖啡,因为那个时候速度还比较慢,回来时,它大概能提供80%的版本。当然现在,它可能会提供95%到99%的版本,像3.7版的SONNET一样。
未来变得重要的技能之一是跨学科的能力。即不仅是知道想要实现什么,还需要知道如何构建它。我喜欢我们工程师的一个特点——许多,甚至可能是大部分我们好的产品创意,都是从我们的工程师和他们的原型设计中来的。我认为这就像是很多人最终的角色样子。
第二个方面是,当你突然大部分时间都在评估AI生成的代码时,代码审查真的会发生变化。我自己也经历过这种情况。我提交了一个拉取请求,回来的评论中有些是这样的:“是的,Claude code有时会这样做。我们实际上在这种情况下并不会使用默认参数。” 我当时就想,“哦,糟糕。”
所以我有些不好意思。如果是我自己写代码的话,我可能会更好地注意到这些模式。因此,接下来有两件事需要做。一是模型和模型的基础设施需要更好地从代码库和代码审查中学习,这样它们才能生成符合公司惯用的代码;但同时我们也需要考虑如何从主要写代码,转变为主要将任务委托给模型并进行代码审查。我认为三年后的工作会是这样的:提出正确的想法,进行正确的用户交互设计,弄清楚如何正确委派任务,然后弄清楚如何在大规模上进行审查。
这可能会是一些组合方式,或许是某种静态分析的回归,或者是AI驱动的分析工具,来检查实际生成的代码。比如,它是否存在安全漏洞?是否有其他缺陷?有没有bug?计算机的使用在其中起着作用。所以你可以看得出来,你对这个领域非常兴奋,比如UI的自动化测试。
如果我们想象在未来一年或三年之后,自动化测试工作变得更加普遍,那会是怎样的情景?比如你委派了一项任务,过了一年你回来,系统会说:“我评估了这三种方案,我已经测试了它们。我让另一个agent在浏览器里实际操作了它们,这个方案效果最好。”“我还让它通过了一个额外的agent进行了漏洞测试,一切看起来都很不错。现在我们只需要帮你解决一个问题。”“比如我们来审查这一段特别关键的代码,确保它是你真正想要的。” 这种情况就像是你突然获得了更多的管理和委派的权力,而不仅仅是作为一个环节参与其中。
Harry Stebbings:你说三年听起来有些荒谬,一年会更现实。我同意。
当我们看到开发速度的扩展时,我们是否认为产品发布的速度会遇到平台期或渐近线?因为现在的速度感觉非常快。回到我们之前提到的,我们是否会遇到平台期,还是会继续保持这种指数增长的势头?
Mike Kriege:这是我经常思考的问题。我年初的时候开始审视我们的产品开发过程,看看我们在哪些地方使用了Claude,哪些地方没有使用。你会发现,Claude在某些方面非常有用,比如可以从一个初步的想法出发,帮助创建PRD。显然,Claude在编码方面也非常有用,它能够帮助整合人们关于产品的讨论,找出那些有分歧的关键问题,推动大家达成一致,真正弄清楚应该构建什么依然是最难的部分,对吧?
实际上,唯一能最好解决的,仍然是大家坐在一起,讨论利弊,或者各自去探索、反思然后再回来。这就像任何动态系统一样:如果你优化了某个部分,突然间其他地方可能就成了瓶颈,或者是关键路径。如何达成一致、决定要构建什么、解决真正的用户问题、制定一个统一的产品战略,这些依然非常困难,模型可能还需要一年以上的时间才能解决这个问题。
这就是限制因素。这也是我对至少让我们能够开始探索这个领域感到非常乐观的原因。因为我在Instagram和Artifact工作的日子里,团队很小的时候,达成一致就像是一次咖啡聊天、一个下午的事情,而不像是掌控一个有客户承诺的大公司。那仍然是一个非常人性化的问题,我认为至少需要三年时间,模型才能解决这个层面的抽象问题。
平衡API和消费者产品
Harry Stebbings:最后一个问题,我必须问一下,在快速问答之前。我们刚才提到了构建一些最终产品。当你想到为消费者构建最终产品和构建公司的API部门时,你如何看待这两者之间的平衡和权衡,尤其是构建API业务和构建面向最终用户的消费类业务之间的平衡?
Mike Kriege:从每个方面获得的东西,都会让我权衡这个问题。通过第一方产品我们能学得更快。具体来说,拿Claude code作为例子,在它内部部署一周后,我们发现了其中一个使用模型的工具并没有充分发挥它的潜力。这直接促成了3.7 Sonnet的改进。这就是通过内部试用第一方工具直接推动了下一代模型的改进。
在其他一些地方我们也遇到过类似的情况。实际上,构建第一方产品比构建第三方产品要难得多。第三方产品会告诉你哪里出问题了,但这就像是保持一定距离的反馈。
尽管我们非常紧密地合作,包括与你提到的那些编程初创公司合作,但这仍然不是完全相同的。所以我们从中学到的东西是非常有价值的。然后是那种粘性,我们也讨论了品牌和忠诚度。如果你能围绕一个产品,而不是单纯的API来建立品牌,从消费者的角度来说会更容易。人们能看到,我们为许多这些编程产品提供支持,例如,它通常出现在下拉菜单的默认选项中。
如果你了解这些就会知道,但并不是每个人都知道。而且,这仍然不是他们下载的东西,也不是他们安装的东西,更不会是他们会告诉别人说的事情。但同时,它也是我们获得巨大分发量的地方。我们不打算“发明”所有公司,我们也不是这样做的,这样我们可以以一种方式进行操作,这让我想起了我投资时的经历,你可以看到更多的东西,并且有不止一次的机会去尝试,并且这些都不是最终的目标。
从资源分配的角度来看,实际上我们的分配非常平衡。如果说有什么不足的话,那就是在两件事上投资不足。一是加快第一方产品的迭代速度,这是我目前痴迷的;其次,在API方面,我们如何构建超越“令牌输入、令牌输出”的抽象层。每当我们这样做时,我们都会从人们那里获得很好的反馈。
无论是帮助模型进行规划并执行代理任务,还是让模型构建更多的知识图谱和公司如何 内部运作的仓库,如果你使用API来构建更多的内部知识产品,或者是完善工具的使用,理解很长的语境,并拥有跨越对话的记忆,这些都是我认为值得我们在API方面解决的问题,因为这些问题可以将我们在训练方面学到的东西直接映射到API上,并围绕它构建出很好的产品。所以我这样看待这两者,但在Instagram上,这是一个新的问题,那里很容易。它几乎是95%的产品,5%的API。而且,那就是我们真正需要做的事情。
Harry Stebbings:你将采取什么措施来提高面向消费者的第一方产品的速度?
Mike Kriege:我认为有两件事。一是意识到,我们当时是在运行一个更大的公司“剧本”,实际上我们还处于初创产品阶段,即使公司有了良好的发展势头,而且API业务做得非常好,人们也在使用Claude AI并升级到Claude AI Pro,但这仍然是早期阶段,仍然是生死存亡,或者是成败的关键。所以我们需要以这种方式运营。这意味着要尽早、更快地将合适的人聚集在一起,并忽略组织边界。我认为我们变得过于僵化了,像是“哦,这个任务是这个团队的,而那个任务是那个团队的;哦,你无法在这个季度完成这个任务,因为它不属于这个团队。”我明白组织发展的原因,有些变化是自然的,但我们现在承受不起这些变化。所以现在更多的是,谁是合适的人选,把他们聚集在一起,明确所有其他的干扰因素。然后,像是清空我的日程安排。这样,我就能花更多的时间在产品评审和设计评审上,而不是在行政事务上。
Harry Stebbings:DeepSeek展示了约束对西方公司带来的好处,对你们和OpenAI的尊重,你们有太多的钱。
Mike Kriege:我会这么说:我们的产品的采纳速度超过了它们真正的产品市场契合度,因为它们仍然是获取模型的最佳方式。这不是能长久维持下去的,所以我认为,这不是可以依赖的事情;其次,我觉得我们没有为用户提供足够的服务,因为我们还没有推出正确的产品。所以这是我每天早晨醒来时要么感到焦虑,要么受到启发的事情,取决于当天的心情。就是说,我认为我们在这方面有太多工作要做。
快问快答
Harry Stebbings:我喜欢这个。我想进行一个快速问答环节。我说一个简短的陈述,你给我你的即时想法。这样可以吗?OpenAI做得比你们更好的地方是什么?
Mike Kriege:他们在推出V1版本时行动得更快,甚至有时超前于模型本身。
Harry Stebbings:他们做得比你们差的地方是什么?
Mike Kriege:可能是个性化和他们构建的功能是否具有一致性。
Harry Stebbings:哪个替代模型给了你们最多的尊重?
Mike Kriege:OpenAI。我认为他们在第一方产品开发和API之间做到了平衡,API让人们能够大规模使用。而且我认为他们做得很好,但我们有一个Instagram的原则是先做简单的事情,我觉得他们通常会先做简单的事。
Harry Stebbings:如果你能从零开始重建Anthropic的产品和技术栈,你会做什么不同的事情?
Mike Kriege:这是一个很好的问题,真的非常好。我们去年建立的那些实际上非常有价值的东西,现在感觉它们在信息架构上有了一些成本。我知道这听起来像是一种很技术化的描述,但基本上就是说,人们不应该需要去思考像是项目、文档、对话这些东西,它们之间的关系是怎样的。我觉得,像是彻底拆解这一切,去思考什么才是真正重要的,是你是否拥有正确的情境来参与到合适的对话中,你是否能感觉到自己始终知道接下来应该去哪儿。而像Anthropic和Claude本身作为一种有用的指南,告诉你接下来最重要的工作是什么,这是一种不同的范式。我知道,创建一个项目如果你能够做到这一点,确实是一个很棒的产品,但在这个过程中有很多的步骤。
这就是产品方面的内容,我认为这是核心的东西。至于技术堆栈,我的意思是,Claude AI和可能还有chatGPT.com最初基本上是作为展示模型的一个工具来构建的,而不是为了成为那种能够支撑更加复杂的多产品体系的基础设施。我们现在正在积极进行一项工作,拆解其中的一部分,并重建核心的用户体验,让它感觉更好。现在感觉不太好,感觉有点像是一个不断进化的产品,它曾经满足了当时的需求,但现在却被要求做更多的事情,以至于每次新增功能变得更加困难且变慢了。
Harry Stebbings:过去12个月里,你改变了什么想法?
Mike Kriege:对第一方内容的重要性的看法。我看到了API的增长,我想这是我们应该投入更多时间的地方。如果你不在第一方内容方面同样投入,甚至可能更多地投入,你将错失机会,而且不会有强大的护城河。
Harry Stebbings:你觉得错过这一点对你们的影响有多大?
Mike Kriege:我觉得影响非常大,如果你深入思考一下的话,对吧?理想情况下,像是'哦,有不止一个领先的AI产品'这样的叙述,我们应该捕捉住这个叙述。我认为这对我们造成了伤害。
Harry Stebbings:在AI领域,未来有哪些技术产品挑战是大家都没有讨论过,但你认为它们至关重要的?
Mike Kriege:随着模型变得越来越强大,它们也会变得更具知识性,对吧?它们会能处理从非常私人或敏感的话题到公司角度的事情,你与它们的对话内容会涉及到很多领域,甚至它们可能接触到你所在公司的所有信息。然后,大家都喜欢谈论agent之间的互动,对吧?这两者的交集,很多人没有足够关注或讨论。这是一个问题:你是否信任你的Mike代理或Harry代理在外面运行时,能够避免被破解,或泄露它知道的那些非常私人或敏感的信息?我想我的比喻是我的五岁女儿。
看到她和刚认识的人交流真的很有趣,因为她并没有完全区分哪些是我们家庭内部的私密和机密信息,哪些是可以与新朋友或结账时与某人交谈的事情。所以,辨别这些事情是人们随着时间推移逐渐获得的能力。对于模型来说,这一点被低估了,而且从模型能力的角度来看,可能也未被充分研究,因为模型本质上是想帮助人们,但这并不总是你希望它们所做的。这背后是一个安全性的问题,但我认为也有隐私和数据安全的问题。
Harry Stebbings:你担心你的五岁女儿比起与人类交流,她会更习惯与model和agent交流吗?
Mike Kriege:我和Alex Wang谈过很多次这个问题,因为他有个观点,说未来大多数朋友将是AI朋友。我认为他没错,这在某些方面已经开始成为现实,像是人们在进行很多在线游戏体验,其中一些游戏角色是NPC,你可能在这些环境中感到更加自在,即使你没有完全突破。
所以我确实有点担心,尽管她非常外向,所以我并不担心她个人的情况。但如果我们从更广泛的角度来看,实际上有很多可以从中学习的东西。比如我曾是一个相当笨拙的青少年,可能会受益于一些AI互动练习,帮助我应对这些事情。但与此同时,这并不是完全解决了现实互动的后果的问题,就像是读一本书讲述你和高中女友第一次激烈争吵的情境,然后实际上经历那一刻。当你身临其境时,你会意识到,这就像经典的中文房间实验,虽然它不完全是中文房间实验。
这是一种不同的思维实验,类似于某个只在黑白房间里阅读有关红色的人,他被带进房间,看到红色,然后问:“那有什么定性上的不同吗?”答案是:绝对有的。而且,和一个模型进行对话、与模型互动、即便是进行情感角色扮演,再与一个真人进行同样的互动之间,是否有不同呢?当然有。所以,从某种角度来看,这可能是未来人类互动中的一个有用部分,但绝对不足以代表全部。
Harry Stebbings:在一个由AI驱动的十年里,欧洲会变得更联动吗?还是相反?
Mike Kriege:我希望他们做得好,因为我非常喜欢欧洲,我也在葡萄牙长大。我看到一个有点悲观的、有点失望的观点,认为如果现实世界的经验和人类互动变得更有价值,那么欧洲会变得更有价值。它本身也许是感官和体验的世界首都之一,感觉有点奇怪,如果仅仅依赖这个,似乎有些局限。
从欧洲的角度来看,非常有趣的是,像我非常尊重欧洲的方面是,他们常常会非常坚持某些生活方式或社会规范,尽管不总是优雅,但至少会努力将这些规范通过最佳实践或法律的形式加以体现。所以,即使我们在考虑产品设计、数据隐私,以及向德国用户或公司销售时,会提出一系列不同的问题,这些问题通常是非常有帮助的。也许这里的正面观点是,这些问题其实是每个人都应关注的问题,欧洲可能只是会走在前列,提出一些这样的问题。
从实验室的角度来看,回答这个问题要难得多。可能有一些因素,比如计算资源的获取,可能会使他们在价值链上向上移动。如果基于这些模型构建应用变得更容易,并且你能从0到1更灵活,比这些大型实验室还要更迅速,甚至拥有成百上千万的用户,那么你就必须慢慢推进。创新会在那里发生吗?可能会,但它可能需要不同的监管和初创生态环境来真正实现。
Harry Stebbings:最后一个问题。Daria曾说过,这将是可以活到150岁的一代。显然我可能有点歪曲,并总结了他的观点。嗯,但Claude可能是那一代。我非常乐观。我的母亲患有多发性硬化症,我认为AI将帮助找到类似MS这样的疾病的治疗方法。你同意他的乐观态度吗?你怎么看待AI在延长寿命和人类寿命方面的潜力?
Mike Kriege:我认为潜力巨大。从此刻,AI正帮助加速药物发现和临床试验的过程。我以前没注意到,临床试验报告以前可能要花15周的时间,而现在他们使用云计算,在20分钟内完成。这是一个飞跃式的变化。当然,之前的研究需要几年时间才能积累,所以我并不是说我们把几年缩短成了几周,或者把几年缩短成几分钟,但这至少是我们可以加速的一个过程环节。
这就是现有模型的能力。然后你会看到,比如arc,这是一个科学研究机构,由Patrick Calls和其他一些人发起和资助,他们正在为细胞研究建立基础模型。你突然拥有了一个真正的细胞模型,可以进行实验,这样的进展也应该会加速药物发现和实验的进程。它们非常消耗精力,缩短了其中的循环过程。
所以我非常乐观。AI在很多领域相较于其潜力,仍然被低估了。我认为这个领域最聪明的人,像我这一代的最聪明的头脑,曾经都在做“投放更精准的广告”这样的工作。也许曾经是这样,但我认为今天很多人都在努力工作,如何创造在很多领域内都极其有用、极其有价值且智能的模型。
Harry Stebbings:Mike,你太棒了,非常感谢你允许我在没有给出任何提示的情况下,完全展开所有问题。你真是太棒了。
Mike Kriege:我的荣幸,真的很开心。
原视频:Mike Krieger, Instagram CoFounder & Anthropic CPO: Where Will Value Be Created in an AI World?|E1265
https://www.youtube.com/watch?v=GqDZfcx1kRg&t=3s
编译:Christine Liu
请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。