(关注公众号设为🌟标,获取AI深度洞察)
在这股AI Agent热潮中,值得关注的还有行业巨头OpenAI的专家们对AI Agent开发的思考。"2025年将成为AI Agent之年,这一年人工智能将真正从助手角色毕业,成为真正的协作伙伴。"OpenAI解决方案架构团队负责人Toki Sherbakov在近期的纽约AI工程师峰会上如此预测。
而对于如何构建有效的AI Agent,OpenAI的解决方案架构师Prashant Mital则提出了令人深思的观点:"团队经常直接跳入设计多AI agent系统,AI agent调用AI agent,动态协调任务,处理长对话。这一切听起来很强大,但当过早进行时,它会创造很多未知因素。我们建议从为单一任务专门构建的单一AI agent开始,将其投入使用,限定用户群体,并观察其表现。"
这种从0到1、从简单到复杂的方法论,与当下很多企业急于求成的做法形成鲜明对比。那么,OpenAI专家们是如何一步步构建企业级AI Agent的?他们积累了哪些可复制的经验?以下是他们分享的核心内容:
Toki Sherbakov的演讲
如何利用OpenAI构建和扩展应用场景,这对企业与OpenAI合作将应用方案推向实际使用环境意味着什么,并简要介绍AI agent以及我们在构建这些应用方案和智能工作流程方面的实践经验。
OpenAI的组织架构
首先简单介绍一下OpenAI的组织架构。相信大家已经听说过OpenAI,但就运作方式而言,我们有两个核心技术团队。一是研究团队,由1,200名研究人员组成,他们负责创造这些人工智能模型,开发和部署这些基础模型,可以说这些模型是"从天而降"的。二是应用团队,我们的第二个技术团队,他们将这些模型转化为产品,这就是您看到的ChatGPT和API等产品的来源。
在市场推广方面,我们的团队将这些产品实际部署到用户手中,帮助将这些技术应用到您的员工队伍和产品中,真正开始自动化内部工作。一旦部署完成,我们会形成一个不断改进的循环,从实际使用中获取反馈来直接改进产品,并通过这个研究循环来改进我们的核心模型。这就是OpenAI的典型运作方式。
企业AI agent场景
在企业中,我们观察到AI客户使用旅程通常分为三个阶段,虽然不一定按这个顺序发展,但这是我们通常看到的模式。首先是建立能使用AI的员工队伍,将AI技术交到员工手中,让他们了解AI知识,在日常工作中使用AI。接着通常发展到自动化AI运营,这更多用于内部场景,为员工队伍构建自动化或辅助工作的应用。最后一步是将AI融入面向最终用户的产品中。
就OpenAI的具体产品而言,启用员工队伍通常始于ChatGPT,这是我们的主打产品,供用户日常使用。当涉及内部自动化运营时,可以部分使用ChatGPT,但对于更复杂的场景或需要更多个性化的情况,则需要使用API。最后,将AI融入终端用户产品主要是API应用。
企业在实践中制定AI战略通常从高层确定策略应该是什么。我们认识到,重要的不是"什么是你的AI战略",而是"什么是您更广泛的业务战略",OpenAI的作用是帮助确定技术如何满足这一更广泛的业务战略。有了高层的指导后,就可以确定一两个重要的应用场景开始,并规划这些场景,确实地实现。一旦有了战略并执行了一两个应用场景,就需要考虑如何在整个企业中建立部门能力。这包括通过培训员工、建立专业中心,或者建立一个集中化的技术平台,让企业内的其他人可以在此基础上进行开发。
以一个三个月的应用场景开发为例,当确定了要首先解决的场景后,首先要进行初步范围界定,技术架构评估,以了解AI如何融入当前的技术环境,并明确定义成功指标和关键性能指标。接着是开发阶段,这是花费最多时间的部分,在这里进行不断尝试,改进提示策略、智能检索等,以不断改进正在处理的方案。这是我们团队与您的技术团队通过研讨会、办公时间、共同编程会议、网络讲座等方式密切互动的地方。然后是测试和评估阶段,使用预先定义的评估标准进行对比测试和小范围推出,了解实际效果。最后是正式使用阶段,进行启动推出,进行规模优化测试,以确保在推广给多个用户时能够正常工作,然后进行持续维护。
摩根士丹利案例
在与OpenAI合作过程中,我们提供专门的团队,也要求你提供专门的团队来使这一过程顺利进行。我们提供的支持包括提前使用新模型和功能的权限,来自我们研究、技术和产品团队的内部专家支持,以及联合发展规划会议,确保我们与您的未来发展方向保持一致。
以摩根士丹利为例,他们建立了一个内部知识助手,让他们的财富管理员能够查询大量知识库,并获得高度准确的信息来回应客户。最初,准确率只有45%。在与我们互动过程中,我们引入了新方法,如高级检索技术、个性化调整、不同的信息分块策略,这些改进了性能。随着我们不断引入更多方法,准确率不断提高。我们引入了重新排序和分类步骤,使准确率达到了85%。最终,他们的目标是90%,但我们通过其他方法如提示优化和查询扩展,实现了98%的准确率。
2025:AI agent之年
展望未来,我们越来越多地看到的是在AI agent领域的开发。可能你听说过"2025年是AI agent之年",智能工作流程一直是一个热门话题,但我认为今年我们将看到它真正变为现实。
Prashant Mital的演讲
OpenAI,我们有幸与正在构建最先进AI agent的客户并肩工作,同时也与开发我们自己的智能产品(如Deep Research和Operator)的团队成员密切合作。正如Toki所说,我们预计2025年将成为AI agent之年,这一年人工智能将真正从简单的助手角色毕业,成为真正的协作伙伴。为了迎接这个时代的到来,我们一直在努力找出AI agent开发中常见的成功模式和需要避免的问题。今天我很高兴与大家分享其中的四个要点。
AI agent的定义
在进一步讨论之前,我想先解释一下我们所说的"AI agent"。我们认为AI agent是一种人工智能应用,它由一个模型组成,这个模型有一些指令(通常以提示的形式出现),能够获取信息和与外部系统互动的工具,所有这些都在一个运行循环中,而这个循环的结束由模型自身控制。 可以这样理解:在每个运行周期中,AI agent可以被视为一个接收自然语言指令、决定是否使用工具、运行这些工具、整合工具返回的结果,然后向用户提供答案的实体。此外,AI agent可能会判断它已经完成了任务,因此结束运行循环。
构建AI agent的经验
教训一:简化工具而非依赖
想象一下,你正在设计一个AI agent,需要协调多个模型,获取数据,分析并生成输出。你有两个选择:可以从基础部分开始,进行直接的程序调用,自己记录结果和输出及失败;或者可以从现成的框架开始,选择一个集成方案,连接起来,让它处理许多细节。不得不说,从现成框架开始是很有吸引力的,这也是我开始构建AI agent的方式。这样很容易上手,很快就能建立一个初步演示。但问题是,如果你直接从框架开始,你往往不知道你的系统如何运行或它使用什么基础部分。在你理解限制条件之前,你就已经推迟了设计决策,而如果你不知道限制条件,你就无法优化解决方案。
我们认为更好的方法是:首先使用基础部分构建,了解你的任务如何细分,失败在哪里发生,以及什么实际需要改进。然后,当你发现自己在重复造轮子时,这可能是引入一些集成方案的好时机。现在很多团队花费大量时间选择正确的框架,但我们认为,以可扩展方式开发AI agent并不是选择正确集成方案的问题,而是了解你的数据、失败点和限制条件的问题。
教训二:从简单开始
团队经常直接跳入设计多AI agent系统,AI agent调用AI agent,动态协调任务,处理长对话。这一切听起来很强大,但当过早进行时,它会创造很多未知因素,而不会给你提供太多启示。我们喜欢一种不同的方法:我们通常建议从为单一任务专门构建的单一AI agent开始,将其投入使用,限定用户群体,并观察其表现。这样做可以让你识别真正的问题:错误回答、对话过长、因反应慢导致的低使用率,或者由于信息获取不佳导致的不准确。
然后,了解系统表现不佳的地方以及对用户重要的因素,我们可以逐步改进它。简而言之,我们应该将复杂性视为随着我们发现更多明显的失败案例和限制而增加的东西,因为目标并不是构建一个复杂的系统,而是构建一个有效的系统。
教训三:AI agent处理复杂任务
从简单开始听起来很好,但我们都知道,真正的价值在复杂中实现。那么,我们应该如何处理更复杂的任务呢?这就是AI agent网络和交接概念的用武之地。 AI agent网络是一个协作系统,多个AI agent一起工作,以解决复杂请求或执行一系列相互关联的任务。你可以将其视为一系列专门的AI agent,处理大型智能工作流程中的子流程。
关于交接,你可以将其视为一个AI agent将正在进行的对话的控制权转移给另一个AI agent的过程。这与电话中转接到其他人很相似,只不过在这种情况下,你可以保留整个对话历史,新AI agent就像魔术一样已经知道你之前谈过的所有内容。在示例架构中,我们展示了如何使用AI agent网络和交接实现全自动客户服务流程。这种方法允许我们将合适的工具用于合适的工作。例如,我们使用一种模型对传入请求进行分类,然后使用另一种模型与用户管理对话,最后使用第三种模型执行需要高准确性的任务,如检查客户是否有资格获得退款。 事实证明,交接非常有效,保持整个对话历史和上下文,同时切换模型、指令、工具定义,提供了足够的灵活性来解决广泛的场景。
教训四:保持指令简单
我们的最后一个教训涉及安全措施。安全措施是对应用程序中确保安全性和可靠性的任何机制的总称,通常用于防止滥用并确保系统保持正常运行。 保持模型指令简单并专注于目标任务,确保系统的最大通用性,并确保我们能够以最可预测的方式提高准确性和性能。安全措施不一定要成为你主要指令的一部分,而应该并行运行,更快更便宜的模型的普及使这一点比以往任何时候都更容易实现。
高风险的工具使用和用户回应(例如,发出退款或向用户显示其个人账户中的信息)可以推迟,直到所有安全措施都已确认通过。在这个例子中,我们看到我们运行了一个输入安全检查来防止恶意指令,然后在AI agent的回应上运行了几个输出安全检查。
总结
回顾一下,我们从构建AI agent的经验中总结出四个教训:
最小化使用集成工具 从单一AI agent开始 当你面临更复杂的情况时,升级到AI agent网络 保持指令简单,专注于常规情况,使用安全措施处理特殊情况
=
【往期回顾】
来源:官方媒体/网络新闻
编辑:深思
主编:图灵