Z Highlights
AI领域的新角色与挑战:对话与探索
Sarah:这句话我们以后绝对不会再用了,但很高兴能和你们两位一起在这里。我有两个不同的想法,作为我们最后讨论的话题。第一个是产品发布对决,因为这两位都有权限直接点击“发布”按钮,我就想,拜托了快把我们接下来6到12个月要推出的所有东西都发布吧,完全无视所有内部指引。第二个是我们一起重新设计Instagram,因为他们两个其实都运营过Instagram,但这些计划后来都被彻底取消了。所以,我们还是像朋友一样交流一下心得吧。这听起来有点无趣,但我真的很期待听到你们的分享。总之,对你们来说这其实都是一个相对新的角色。Kevin你之前做过很多非常不同且有趣的事情,那么当你接手这个职位时,你的朋友和团队的反应是什么?Kevin:总体来说是很兴奋的,这是一个最有趣、最有影响力的职位之一,值得去探索的东西太多了。我从来没遇到过如此具有挑战性、有趣并且不眠不休的产品职位,它包含了所有常见产品岗位的挑战,比如弄清楚你的用户是谁、你能解决哪些问题等等。但通常在开发产品时,你是在一个相对固定的技术基础上工作的,你知道有哪些资源,然后尽可能地开发出最好的产品。但在这里,每隔两个月,计算机就能做一些从未在历史上实现过的新事情,而你需要去理解这些技术变化如何影响你的产品,答案可能是会产生相当大的影响,所以,从内部观察AI的发展过程真的非常有趣,我乐在其中。Sarah:Mike,你呢?我记得听到这个消息时,我心想,居然能让Instagram的创始人去参与一个已经存在的项目,真是出乎意料。Mike:是啊,我最喜欢的三种反应是:了解我的人会说这很合理,你在那里会玩得很开心。然后有些人会说,你不需要工作啊为什么还要去做这个?如果真正了解我的人会知道,我就是停不下来,根本控制不住自己。第三种反应是,居然能请到Instagram的创始人,真是有趣。确实,不是很多公司能做到让我感兴趣,但可能有三家公司我会感兴趣。所以,根据了解我的程度不同,反应也各不相同,尤其是见证过我那种半退休状态的人,那段时间大概持续了六周,然后我就想,接下来干点什么呢?Kevin:最近我们和一群朋友一起吃饭,你当时流露出一种孩子般的兴奋感,让我印象深刻,你说自己正在学习所有这些企业方面的东西。和我们平时做Instagram那种用户群不同,现在要服务其他客户,或者是在一个以研究为导向的组织中工作。到目前为止,最大的惊喜是什么?Mike:这确实是这份工作中非常有价值的两个方面,对我来说也是全新的体验。18岁的时候我曾立下一个非常符合18岁心性的誓言,那就是每一年都要不一样,不想重复过相同的一年。正因如此,有时候我会想,再去做一个社交产品吗?感觉太过重复了,首先,你的标准会变得很模糊,其次,也会觉得有点像是在重复同样的事情。所以,企业级的内容真的很新鲜。我也很好奇你在这方面的体验。你会实时收到反馈,我其实想象这更像是投资——周期会长很多。你会有初步交流,然后觉得“他们好像喜欢我”,接着发现项目进入了审批流程,大概还得六个月才能到实际部署阶段,才知道是否合适,所以得习惯不同的时间线。我会问为什么还没有推进,他们会说,Mike,你才来两个月,这件事已经在走流程了,最终会到位的。确实得适应这种不同的进度。但有趣的地方在于,一旦产品上线,你可以直接联系客户,他们也可以找你,交流使用体验,确认效果。而对于用户,你只能通过数据科学进行总体分析,当然你可以邀请一两个人来交流,但他们不会有足够的经济动力去详细反馈你的优缺点。所以,这种方式虽然不同,但也很有成就感。Sarah:Kevin,你之前参与了如此多类型的产品开发,你的直觉在这些项目中有多大的作用?Kevin:是的,我也想补充一下关于企业方面的内容,然后再回答你的问题。在企业领域,重点不一定在产品本身。还有一个买方,他们有自己的目标。你可以打造世界上最好的产品,公司里的人可能都很乐意使用,但这并不一定重要。我之前和一个大型企业客户开会,他们说“这很好,我们很满意,等等。不过我们有一个需求,就是希望能在任何新产品上线前60天知道。”我心想,我也希望能提前60天知道。确实非常不一样,而且很有意思,因为在OpenAI,我们同时有面向消费者、企业和开发者的产品,所以我们几乎在各方面都在进行尝试。就直觉而言,大概一半的工作中直觉是有效的。比如,当你有了一个明确的产品方向,像是接近发布高级语音模式或Canvas时,你在做最后的微调,试图理解目标用户以及要解决的确切问题,这时候直觉是有帮助的,因为这种情况更接近传统的产品发布流程。但是在项目的初期阶段,完全不是这样的。有时我们只是拥有一些未知的能力。比如你在训练一个新模型时,可能觉得它具备某种能力,但你并不确定,研究团队也不确定,没人确定。这可能可行,就像从迷雾中慢慢显现的雕像,但这种能力是模型的一个涌现属性。所以你不知道它是否真的会发挥作用,也不知道它是60%有效、90%有效,还是99%有效。而对于一个60%有效、90%或99%有效的模型,所对应的产品形态是完全不同的。你会有点等待的状态,我不知道你有没有这种感觉,就是不时去和研究团队沟通一下,问他们进展如何、模型训练怎么样、有任何新见解吗,他们会说这是研究嘛,我们还在做,也不确定,这是一个探索过程。但这也很有趣,因为大家一起发现新事物,同时也带有一定的随机性。AI产品开发的不确定性与适应性:从原型到用户反馈
Mike:这让我最想起Instagram时期的情况,比如苹果在WWDC上发布的公告,你会想这可能对我们非常有利,或者会给我们带来混乱。而现在有点类似,但是自己的公司在内部颠覆你,这感觉很酷,但同时也让人觉得产品路线图完全被打乱了。Sarah:这种循环对你们来说是什么样的?你形容它像是“透过迷雾”来寻找下一组功能。那么,在不知道具体会发生什么的情况下,你们还能做规划吗?还有,发掘新功能并将其融入产品的迭代周期是什么样的?Mike:在智能方面,你可以稍微粗略的看一下“它正在朝这个方向发展。于是你可以围绕这个方向去构建产品,做出相应的决策。总的来说,有三种方式可以应对。首先,智能的进展虽然不可预测,但至少可以看到一个大致的趋势。其次是要从产品角度决定投资哪些能力,然后与研究团队进行微调,像是Artifacts这种,我们在研究和产品之间投入了大量时间。Canvas也是一样的,你是在做共同设计、共同研究、共同微调。这是能在这家公司工作的真正特权,能在这里参与设计。然后还有能力方面的投入,像是OpenAI的语音模式,就是我们这周发布的计算机语音处理工作。你就会想,“好,60%了,进展不错,继续加油”。所以,我们尝试的是让设计师尽早参与到过程当中,但同时知道,你并不是在做一个最终的赌注,正如实验讨论所说,实验的结果应该是学习,而不是每次都能推出完美的产品。和研究团队合作时也一样,结果应该是演示或具有启发性的东西,可以激发产品的想法,而不是一个可预测的产品过程,你不会觉得“这已经消除了风险,这意味着当研究来临时,它应该是这样”。Kevin:我还很喜欢的一点是,研究的某些部分至少是面向产品的,尤其是在训练后阶段,就像Mike所说的那样。而研究的另一部分则更像是学术研究。所以我们有时会在会议上听到某些能力,然后你也会很想做这件事,然后团队中的一位研究员会说我们已经能做到这个了,已经有三个月了。我们会惊讶地问,真的吗?怎么回事?他们会说,我们没觉得这很重要,所以现在我在做其他事情了。但有时候,你真的会遇到一些魔法般的时刻。Sarah:我们在投资时经常考虑的一件事是,如果一个模型在执行某项任务时的成功率是60%而不是99%,你能做什么?不像很多任务,接近60%的时候,任务本身仍然非常重要且有价值。那么,你们是如何在内部评估任务进展的?然后,在产品中你们会如何考虑让失败变得优雅,或者让用户能够顺利度过这个“过渡期”,与其说是我们需要等待模型变得更好,倒不如说是如何处理这个问题?Kevin:其实有很多事情是可以在模型正确率为60%的情况下做的,只不过你需要特别为此进行设计。你必须预期,系统中会有更多人工干预,而不是完全依赖自动化。比如,看看Github Copilot吧,它是第一个真正让人们意识到AI不仅能用于问答,而是能用于真正具有经济价值的工作的产品。它发布时,我不确切知道那是基于哪个模型,但我知道那肯定是好几代前的模型。所以我可以保证那个模型在与编码相关的任何方面都不完美。Sarah:那应该是基于GPT2,那个模型算是比较小的。Kevin:没错,但它依然很有价值,因为它能让你在写代码时省下不少功夫,虽然它的代码可能并不完美,但它至少把大部分内容给你完成了,你只需要进行编辑。因此,像这样的体验完全是可行的。我们会看到类似的情况,尤其是在向agent和更长任务形式转变时,虽然它可能不完美,但如果它能为你节省5到10分钟时间,那依然是有价值的。更重要的是,如果模型能够理解自己不确定的地方,并主动向你询问,我不确定这个,可以帮我一下吗?那么,人与模型的结合将比60%要高得多。Mike:这个百分比,它就像是AI的门槛线,就像Mendoza线一样,它通常非常不均匀,可能在一些测试中表现得非常好,而在另一些测试中却不太行。这也有助于我们在与客户合作时进行试点项目,尤其是当我们从两家公司收到同一天的反馈时,有时候客户会说,这个解决了我们所有的问题,我们已经尝试了三个月,谢谢!但这并不意味着它比其他模型更好。我们也会遇到这样的情况:它比其他模型差。所以,了解这一点很必要。你可以做很多内部评估,但当真正把模型投入到实际应用中时,你会发现,像你做设计时,可能一开始觉得很完美,但当放到用户面前时,你才会发现原来我错了。模型也有类似的感觉,我们尽力去做出合理的判断,但每个客户有自己定制的数据集,有自己的内部需求,他们以某种方式对模型进行提示。所以,当模型真正投入到世界中时,它展现出来的效果几乎像是双重的,给你带来了不一样的结果。Kevin:我很好奇你是否也有这种感觉。现在的模型并不是受限于智能,而是受限于评估。模型实际上能够做得更多,在更广泛的领域中更准确,但目前的表现远没有发挥其全部潜力。关键在于,如何教会它们,让它们拥有你所需要的智能,去学习一些特定的主题,尽管这些内容可能不在它们最初的训练集里,但只要你教,它们是能够做到的。Mike:没错,我们经常看到这种情况。几年前有很多激动人心的AI应用,当时大家只专注于推出炫酷的AI功能,完全没有做评估。现在大家都认为新的模型应该更好,但其实我们并没有做评估,因为我们当时只是急于发布AI功能。最难的部分是让人们意识到,我们需要停下来,思考成功到底是什么?你到底在解决什么问题?通常产品经理会换人,新的产品经理接手后就会开始问,那成功是什么样子的?我们来写一些评估吧。我们发现,Claude实际上擅长写评估并且进行评分。所以我们可以为你们自动化很多这个过程,但前提是你们要告诉我们什么是成功,然后才能真正去逐步改进。这个过程往往是让任务从60%提升到85%的关键。如果你有一天来Anthropic面试,或许你会看到我们面试流程中的一个环节,要求你将一个糟糕的评估改进成好的评估。我们想看到你是怎么思考的,虽然其他地方可能没有这种人才,但我们正在努力培养这些能力。如果我们能教会别人一件事,那就是这点。Kevin:这确实是个重要的点。写邮件及时交流,这将成为未来产品经理的核心技能之一。Mike:我们实际上在内部讨论过这个,可能这有点像内幕消息,但很有意思。我们有研究产品经理,专门负责模型能力和模型开发,也有更多负责产品界面或者API的产品经理。后来我们意识到,2024、2025年,构建AI驱动功能的产品经理角色,越来越像前者,而不像后者。比如我们发布了代码分析功能,实际上Claude可以分析CSV并为你编写代码。这个产品经理负责将其做得80%好,然后把它交给能写评估并进行微调和提示的产品经理。这个角色实际上是同一个,功能的质量现在取决于你在评估和提示上的工作。所以,这两个产品经理的角色现在正在逐渐合并。Kevin:是的,完全正确。我们的确设置了一个训练营,让每个产品经理都通过写邮件来学习,了解好的和不好的评估之间的差异。虽然我们肯定还没有完成这一过程,还需要不断迭代和改进,但这确实是做出优秀AI产品的关键部分。Sarah:作为这次招聘的一部分,针对未来想要在构建AI产品或研究产品方面做得好的人,我们不能参加你的训练营,Kevin。那我们该如何培养在评估和迭代循环中变得优秀的直觉呢?Kevin:你可以利用模型本身来做这件事。比如直接询问模型“什么样的评估是好的”或是“给我一些样本评估”,模型会给出一个很好的答案。Mike:这一点非常重要,如果你听听像Andrea Karpati等在这个领域花了很多时间的人,他们都会说,没有什么比看数据更有效。所以人们经常会陷入这样的困境:我们已经有了一些评估工具,新模型被评估工具测评为80%的优秀程度,但我们却不敢发布新模型认为它还不够完美。但其实,如果借鉴之前的一些案例就会发现,这个模型已经足够好了,只是评估工具的测评不够标准。甚至很有趣的是,像每次模型发布都有模型卡,而有些评估中我们看到的即使是黄金答案,我也不确定人类是否会这么说,或者那道数学题实际上有点错。达到100%的完美是非常困难的,因为连评分本身也非常有挑战性。所以,我会建议你,培养直觉的方式就是去看看实际的答案,甚至采样来看,“也许我们应该进化评估方法,或者即使评估结果很严苛,整体氛围也许是好的”。所以深入研究数据,真正接触数据是非常重要的。Kevin:我也认为,随着我们向更长时间的任务或代理性任务发展,看看这一过程如何演变将会非常有趣。因为当你的任务是像“我给你这道数学题,你能加上四位数并得出正确答案”时,你知道什么是好的,评判标准很简单。随着模型开始做更多长形式、更模糊的事情,比如帮我在纽约市找一家酒店,你知道什么是对的,但很多时候这会涉及到个性化。如果你问任何两个完全有能力的人,他们可能会做出完全不同的决定。所以你的评判标准会变得更为宽松。对我们来说,这将是一个有趣的过程。我们将不得不再次进行进化,重新定义评估标准,这就像我们不断地重新发明东西一样。Mike:当你考虑到这点时,实际上两边的实验室都对“随着发展能力是什么样的”有某种概念。这看起来有点像职业阶梯,你正在处理更大、更长远的任务。也许像评估会开始看起来更像绩效评审。我现在正处于绩效评审季节,所以这个隐喻在我脑海中。就像模型是否达到了你对一个有能力的人应该完成的任务的预期?它是否超越了预期?比如它做得更快,或者发现了你不知道的餐馆,这种情况下,它就比通常的对错标准要更为复杂和微妙。Kevin:更不用说人类还在写这些评估,而模型在某些任务上的表现已经接近或超越人类。有时候人们甚至更喜欢模型的回答,而不是人类的回答。那么如果你让人类写你的评估,这意味着什么呢?Sarah:评估显然是关键。我们将花很多时间与这些模型一起,教自己如何写评估。那产品经理应该学习哪些技能呢?现在你们俩都在这条学习路径上。Mike:使用这些模型进行原型设计是一个被低估的技能。我们最好的产品经理会这样做,当我们讨论UI应该是这个还是那个时,在设计师甚至还没有拿起Figma之前,我们的产品经理或者有时是我们的工程师就会说:“好,我用Claude做了一个A/B测试,看看这两个UI分别会是什么样子。” 我就觉得这很酷,然后我们就能在更短的时间内原型化出更多的选择,并能更快速地进行评估。所以,能够使用这些工具进行原型设计的技能,是非常有用的。Kevin:这是一个很好的观点。我也同意你说的,这也会促使产品经理更加深入地了解技术栈,也许随着时间的推移,这种要求会有所变化。比如说,如果你在2005年做数据库技术,可能需要以一种完全不同的方式深入了解,而现在做数据库技术可能不需要掌握所有的基础知识,因为已经建立了很多抽象层次。但并不是说每个产品经理都需要成为研究员,拥有对这些技术的理解,花时间学习它们的语言,培养对这些东西如何运作的直觉,都会对产品经理有很大的帮助。Mike:另一个方面是,你正在处理一个随机的、非确定性的系统,像电子邮件是我们尽力做到的,但在一个无法控制模型输出的世界里进行产品设计,你只能尽力而为。那么,你需要什么样的反馈机制来闭环?你如何决定模型何时偏离了正确的轨道?如何快速收集反馈?你希望设置哪些防护措施?你怎么知道模型在大规模输出时的表现?这些问题要求我们理解模型的输出,不仅仅是针对单一用户,而是针对每天大量用户的大规模输出。这就需要一种非常不同的思维方式:以前,错误报告可能是点击按钮时没有执行用户动作,这类问题比较容易识别和解决。Kevin:也许五年后,当人们习惯了这一切时,这种情况会有所改变。但我们现在仍处于适应这种非确定性用户界面的阶段,尤其是对于那些不是技术人员的人来说,他们在使用技术产品时并不习惯这一点。这种情况完全违背了我们过去25年使用计算机的直觉,以前,如果输入相同,计算机会输出相同的结果,但现在这一点已经不再成立了。而且,不仅仅是我们在构建产品时需要适应这种变化,我们还需要站在使用我们产品的用户角度思考,这对他们意味着什么。这其中有一些缺点,但也有一些非常酷的优点。所以,思考如何在不同的方式中利用这一点来为自己带来优势,确实很有趣。Mike:我记得我们在Instagram做了很多滚动式的用户研究。研究人员每周都会带来不同的人,每次都会测试原型,我们在Anthropic也做了类似的事情。但有趣的是,对于这些会议,常常让我感到惊讶的是用户使用Instagram的方式。用户对新功能的反应或者他们的使用案例总是很有趣。而现在这种研究的一半是关于用户的反应,另一半则是关于模型在这种情况下的表现。你会发现它做的很好。所以,这也带有一种骄傲的感觉,尤其是当模型在用户研究环境中反应良好时。而当模型误解了意图并且你发现它已经跑到答案的第十页时,你也会感到沮丧。所以,这也许是在某种程度上学会了对这种环境中的不确定性保持一种“禅”的心态,放下控制感,接受会发生什么。AI技术的快速适应与教育:从消费者到企业用户
Sarah:你们两位都曾参与过这些消费者体验的设计,迅速教会了数亿人新的行为。现在这些AI产品的普及速度甚至比那时还要快,而且如果产品经理和技术人员本身对如何使用这些技术并没有太多直觉,那你们是如何考虑教育最终用户的呢?你们正在处理的规模是如此庞大,而这些技术又如此反直觉。Kevin:我们适应的速度真是惊人。前几天我和某个人谈到,他们在第一次搭乘Waymo(无人驾驶汽车)时的体验。谁坐过Waymo的车?如果你还没坐过Waymo,等你离开这里的时候,在旧金山搭乘Waymo去你要去的地方。那是一次神奇的体验。但他们说,刚开始的30秒,我在想“天啊,小心那个骑自行车的人”,然后五分钟后,我就想“天啊,我正在生活在未来”。但是再过十分钟,我就开始无聊地刷手机了。我们是多么迅速就习惯了这种绝对的魔法。这个现象也出现在ChatGPT上,它不到两年前才出现,当时它的问世真是令人震惊。现在,如果我们回去用最初的GPT 3.5版本,大家会觉得很可怕。Kevin:我们之前怎么可能想到今天我们正在做的事情和你们正在做的事情,所有的一切都感觉像魔法一样。12个月后,我们会难以置信我们曾经用过那些垃圾,因为这就是这个领域发展得如此之快的方式。更让我惊讶的是人们适应得有多快,因为,尽管我们尽力去推动人们跟上步伐,但也有很多兴奋感。人们明白这个世界正在朝着这个方向发展,我们必须尽力让它朝着最佳的方向前进。它正在发生,而且发展得非常快。Mike:我们现在正在努力改进的一件事就是让产品在字面意思上成为一种教育工具,这也是我们早期没有做到的,现在我们正在改变的方向,就是更多地让Claude了解自己。以前我们只是说,它是由Anthropic创建的人工智能,训练集包含了什么内容等,但现在我们字面上会说:“这是如何使用这个功能的”。因为用户研究表明,人们会问:“我怎么使用这个东西?”然后Claude可能会回答:“我不知道,你试过在网上查找吗?”你会觉得,这个回答一点用都没有。所以现在我们正在努力将其扎根于实际应用中。现在我们能做到的是:“这是文档链接,下面是操作步骤。我可以帮你。”这些模型实际上在解决UI问题和用户困惑方面非常有效,我们应该更多地利用它们来解决这些问题。Sarah:在企业中进行变革管理时,情况肯定不同吧?因为那时候有现有的做事方式,有组织流程。那么,你是如何看待教育整个组织,帮助他们提升生产力或其他可能带来的变化的呢?Mike:企业方面真的很有趣,因为这些产品虽然有数百万用户,但大部分的核心用户仍然是早期采用者和喜欢技术的人,然后才是一个长尾用户群体。而当你进入企业时,你是要将产品部署到一个组织中,通常会有一些并不太擅长技术的人。这很酷,实际上看到一些非技术用户首次接触到聊天驱动的LLM,并且能够看到他们的反应。因此,你有机会进行一些培训课程,教他们如何使用,并且提供教育材料。我们需要从这些实践中学习,然后总结出如何教会下一个一亿人如何使用这些技术。Kevin:这些用户界面通常会有一些核心用户,他们会很兴奋地去教其他人使用。例如,OpenAI有定制的GPT,组织通常会创建成千上万个。这为核心用户提供了一个机会,让他们能够创造一些能让AI变得更简单、对那些可能不知道如何使用AI的人来说更具即时价值的东西。这就是一个很酷的地方,你可以找到一些核心用户群体,他们实际上会成为传道者。Sarah:我得问你一下,因为你们的组织基本上都是核心用户,所以你们生活在自己的未来小世界里。我有个问题,不过如果你不想回答的话可以随时引导我。Mike,我该怎么用计算机?你们都在做什么?Mike:从内部的角度来说,正如Kevin之前提到的关于“什么时候能准备好”的问题,我们确实有过一段时间非常有信心,觉得这个产品已经很好了,虽然它还很早期,还会犯错误,但我们如何做到尽可能好呢?最有趣的一个用例是在我们进行测试时,有人想试试看AI能不能帮我们订个披萨。结果它真的订了,而且一切顺利,最后披萨送到了办公室。那一刻很酷,可以说是一个标志性的时刻,虽然是Domino's(不是特别高端的披萨)但总的来说,它还是AI完成的。这种时刻确实非常有意思。当然,披萨订得有点多,可能是饿了才去试的。现在我们看到一些非常有趣的早期使用情况,其中之一是UI测试。像在Instagram,我们几乎没有UI测试,因为它们很难写,容易脆弱,而且经常因为按钮的位置变化等问题就会失败,结果不得不重写很多东西。而现在,计算机在执行“是否按预期工作”的UI测试时非常有效,基本上能做到“它是不是做了你想要的事”。这一点非常有意思。另外一个我们开始深入探讨的方向是那些需要大量数据处理的智能代理应用。例如,在我们的支持团队和财务团队中,许多PR表单的填写工作原本非常繁琐重复,涉及到从一个数据源提取数据并放入另一个数据源,这需要大量人工时间。每次我谈到计算机的应用时,我都会用“繁重的工作”来形容。我们希望能自动化这些繁琐的工作,让大家可以集中精力做更具创意的事情,而不是在每个操作上点击30次。Sarah:Kevin,我们有很多团队在试验GPT o1模型。显然它可以做更复杂的事情。但如果你已经在应用程序中使用了像GPT-4这样的模型,你也不能简单地把它作为一对一的替代品。你能给我们一些指导吗?你们内部是如何使用它的?Kevin:有一点可能很多人没有意识到,实际上,我们一些最先进的客户以及我们内部正在做的事情是,实际上并不是把一个模型用来做某件事。你最终会将模型组合起来,形成工作流和协调机制。因此,你会根据每个模型擅长的领域来使用它们。GPT o1模型非常擅长推理,但它也需要一些时间去思考,而且它不是多模态的,当然也有其他一些局限性。Sarah:推理对于这个群体来说,我意识到这是个基本问题。Kevin:没错,大家应该对“扩展预训练”的概念比较熟悉。你从GPT2、3、4、5等版本开始,进行越来越大的预训练。这些模型变得越来越“聪明”——或者说,它们知道的东西越来越多,但它们更像是系统1思维,你问它一个问题,它立刻给你答案,就像是文本补全一样。Sarah:对,如果我现在问你问题,你就会一个接一个地输出结果,继续进行。Kevin:你不觉得其实人类对于其他人如何运作的直觉,经常能够帮助你推测出很多模型是如何运作的吗?你问我一个问题,我可能会偏离主题,进入了错误的句子,这时候很难恢复。模型其实也完全会出现这种情况。所以,你有那种越来越大的预训练。GPT o1模型实际上是一种不同的扩展智能的方式,它是在查询时进行的。所以,不像系统1思维那样,问我问题我立刻给你答案,它会暂停,就像我如果问你一个问题一样。如果我让你解一个数独,做一个《New York Times》的连线游戏,你会开始思考这些词怎么分组,这四个可能是这样的也可能不对,可能是这些......你会通过你已经知道的东西来形成假设,然后通过证伪或确认这些假设,接着继续推理。这正是科学突破产生的方式,也是我们如何回答难题的方式,这就是在教模型怎么做。而且现在,它们会思考30到60秒,然后再回答。想象一下,如果它们可以思考5个小时甚至5天,会发生什么。所以,这是扩展智能的全新方式,我们觉得现在才刚刚起步。我们现在处于这种新型推理的GPT1阶段。但就像以前那样,模型并不是用来做所有事情的,对吧?有时你问我问题时,你不希望我等60秒才回答,你希望我马上就给出答案。所以我们最终会以多种不同的方式将我们的模型一起使用。例如,网络安全,你可能认为模型不适用于此领域。它们可能会产生幻觉,这似乎是个不适合产生幻觉的领域,但你可以对模型进行微调,使其擅长某些任务。然后,你可以微调模型,使其对输入和输出的种类非常精确,然后让这些模型开始协同工作。你会有模型检查其他模型的输出,意识到某些东西不对劲,要求它们重试。所以,最终我们就是通过将模型在一起运作,协作完成特定任务,从中获得巨大的价值。这就像人类如何完成复杂任务一样,我们通常有不同技能的人,他们协同合作来完成一项艰巨的任务。预见AI的未来:主动性、异步化互动与个性化体验
Sarah:你们得告诉我们一些关于未来和即将到来的东西,你们不必给出发布日期,我理解你们不知道,但是如果你们往远看,现在AI领域最远能看见的时间大概是......如果你们能看到未来的话,告诉我一下。但假设是六个月或者12个月,你们想象中的一个体验是什么样的,什么样的体验将变得可能或普遍?Mike:我总是思考这个问题,有两个词可能会在每个人脑海中播下种子。第一个是“主动性”,就是说模型如何变得更加主动?比如一旦它们了解了你,开始监控你的一些信息(假设你授权了它们),它们可能会通过一种既不令人不安又有益的方式来阅读你的邮件,发现一些有趣的趋势。或者,模型可以在你开始一天工作时,给你一个主动的总结:今天发生了什么,哪些对话你可能会参与。我已经为你做了一些研究,你接下来的会议要开始了,这是你可能想要谈论的内容。我看到你有个即将到来的演讲,这是我为你准备的第一版草稿。像这种主动性,将来会非常强大。另一个方面是更加“异步化”。o1模型目前是这一探索阶段的初步界面,虽然它能做很多事情,并且会在过程中告诉你它将做什么。你可以在这里等它,但你也可以选择“它会思考一段时间,我去做点别的事,可能稍后再回来看看,或者它会告诉我何时完成”。就像是扩展了时间的维度,不仅仅是你没问它问题,它主动告诉你一些信息,这会很有意思。还有当你问问题时,它可以说,“好,我会去思考,去做些研究,我可能需要问另一个人一些问题,然后我会给出初步答案,我会再核实一次这个答案,1小时后你会收到我的回复。”打破那种立刻得到答案的约束,这将让你能够做很多事情,比如说,“我有一个完整的小项目计划,去扩展它”或者“不仅仅是我要你在屏幕上改一个地方,而是让我修复这个Bug,像是替我调整PRD来适应新的市场情况,或者根据这三个新的市场条件做出调整”。能够推动这些维度的改变,是我个人在产品方面最期待的。Kevin:是的,我完全同意你说的所有观点。模型将以加速的速度变得更智能,这也是所有这些事情得以实现的一部分。另一个非常令人兴奋的事情是看到模型能够像我们人类一样互动。目前你大多数时候是通过打字与这些模型互动,而我也经常通过打字与很多朋友在WhatsApp等平台上交流。但我也可以说话,也可以看东西。我们最近推出了先进的语音模式。我当时在韩国和日本与人交谈,我经常和一个完全不懂我语言的人在一起。在此之前,我们根本无法与对方交流。但是现在我说:“ChatGPT,我希望你充当翻译,当我用英语说话时,请你把它翻译成韩语;当你听到韩语时,请用英语告诉我。” 突然间,我有了一个万能翻译器,可以与对方进行商务对话。这感觉就像是魔法一样。你想想这种技术能做什么,不仅仅是在商务场合,试想一下,如果你不再需要担心语言不通,而你口袋里就有一个类似《Star Trek Universal》中的万能翻译器,那人们去新的地方旅行的意愿会多么大。这些经历像这样的事情,将来会变得司空见惯,但它依然充满魔力,我对这种技术与Mike刚才所说的所有内容结合起来感到非常兴奋。Sarah:我现在最喜欢的消遣之一就是看一类TikTok视频,就是一类年轻人和语音模式对话的视频,他们倾诉心声,使用各种方式,我看了之后简直觉得amazing。这让我想起一个老掉牙的术语,叫做“数字原住民”或“移动原住民”。我自己其实非常相信人工智能,但我从没想到过会以这种方式互动。但14岁的孩子们却会觉得我能用AI做这个。Kevin:不过我们肯定会试试的。我的孩子是8岁和10岁,他们在开车的时候经常问,“我可以和ChatGPT聊聊吗?” 然后他们就会问一些最奇怪的问题,和AI聊一些古怪的对话,但他们完全不介意和AI对话。Sarah:实际上,我最喜欢的体验之一,也许我们可以在这里结束,问问你最近看到的最令人惊讶的行为(不管是孩子还是其他人的)是什么, 就是当我的父母给我读书的时候,我很幸运。如果我能选择书籍那就太好了,不然我爸就会说“我们要读这本我感兴趣的物理研究。”我的孩子们,我不知道这是不是湾区的父母方式,但我的孩子们会说,“好吧,妈妈,做出正确的图片。我想讲一个关于龙和独角兽的故事,在这个背景下,我会告诉你它会怎么发生”。然后这个故事会实时创作。我想,这是一个大要求,我很高兴他们相信并且知道这是可能的,但这种方式创作自己的娱乐内容真的很疯狂。那么,最近在你们的产品中,你见过的最令人惊讶的行为是什么?Mike:是一种行为和关系。人们真的开始理解Claude或者刚才说的新模型的细微差别。他们理解了这种细微差别。行为几乎像是结交朋友,或者说是在发生的事情上建立双向的同理心。然后我就想,“新模型感觉更聪明了,但可能有点距离感”。就是这种细微差别。作为一个产品,这让我对人们使用我们的产品时的心态有了更多的同理心。你不仅仅是在推出一个产品,你是在推出智慧和同理心,而这正是让人际关系变得重要的原因。如果有人出现说,“我升级了,数学成绩提高了2%”,但我在某些方面变得不一样了,你会想我得适应一下,可能有点担心。这对我来说是一个有趣的旅程,理解人们使用我们产品时的心态。Kevin:是的,模型的行为绝对是产品角色的一部分。模型的个性非常关键,而且有一些有趣的问题,比如它应该多大程度上定制化,或者说OpenAI应该有一个统一的个性,而Claude应该有自己独特的个性,人们会因为喜欢某个个性而使用一个模型吗?这其实是非常人类化的现象,我们和不同的人做朋友,因为我们偏爱不同的人。这是一个值得思考的有趣话题。我们最近做了一些事情,并且在Twitter上迅速传播开来。人们开始问模型:“根据你知道的我,基于我们所有的过往互动,你会如何描述我?”然后模型会回应,并给出它基于所有过往互动所认为的描述。这就像是你开始以某种方式与模型互动,几乎把它当作一个人或实体一样。看到人们对此的反应非常有趣。原视频:Lenny's Podcast | A conversation with Kevin Weil (OpenAI CPO), Mike Krieger (Anthropic CPO), Sarah Guo (Conviction)
编译:Jie Sun