真正的助手:AI 将不再是专门工具,我们用指令让AI像熟练员工一样运用各类软件完成工作

全文3363字,阅读约需10分钟,帮我划重点

划重点

01Anthropic发布了新一代旗舰机型Claude 3.5 Sonnet和Claude 3.5 Haiku,提升编程领域表现。

02Claude AI现具备使用计算机的能力,通过适当的软件设置,可以在计算机屏幕上移动光标、点击相关位置,并通过虚拟键盘输入信息。

03包括Asana、Canva等多家公司已经开始利用这一功能,执行需要几十步甚至上百步才能完成的复杂任务。

04为此,Anthropic的研究人员将与安全团队紧密协作,确保Claude的新功能能够伴随着合理的安全保障。

05目前,Claude在计算机使用的模型中处于领先地位,但还有许多工作要做,以使功能更快速、更可靠。

以上内容由腾讯混元大模型生成,仅供参考

图片

刚刚,Anthropic 发布了其 AI 助手产品线的重要更新 —— Claude 3.5 Sonnet 和 Claude 3.5 Haiku。作为新一代旗舰机型,Claude 3.5 Sonnet 在各个能力维度都实现了显著提升,尤其在编程领域的表现更为出色。

与此同时,Anthropic 还推出了一项革命性的新功能 —— AI使用计算机能力。该功能目前已进入公测阶段,开发者可通过 API 让 Claude 实现类人化的计算机操作,包括屏幕控制、光标移动、按钮点击以及文字输入等功能。


一、使用计算机功能


Claude AI现在具备使用计算机的能力。最新的 Claude 3.5 Sonnet 版本,通过适当的软件设置,可以根据用户指令在计算机屏幕上移动光标、点击相关位置,并通过虚拟键盘输入信息,模仿人类与计算机的交互方式。虽然这一功能目前还在实验阶段,有时操作起来会有些不便或出错,但我们期待随着开发者的反馈,这项功能将快速迭代优化。

包括 Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 在内的多家公司已经开始利用这一功能,执行那些需要几十步甚至上百步才能完成的复杂任务。例如,Replit 正在使用 Claude 3.5 Sonnet 的计算机操作和用户界面导航功能,为其 Replit Agent 产品开发一个关键功能,实时评估正在构建的应用程序。

我们认为这一技能——目前处于公共测试阶段——标志着 AI 进展的一个重大突破。以下是一些关于开发计算机使用模型及其安全性提升的研究见解。

计算机使用功能如此重要?

这一功能为何如此关键?现代工作的大部分都通过计算机完成。让 AI 能够直接操作计算机软件,将带来广泛的应用场景,当前这一代 AI 助手尚无法实现这些应用。

过去几年中,AI 技术已在多个领域取得重要进展,例如复杂逻辑推理和图像识别能力。而下一个重要的发展方向就是计算机使用:AI 模型将不再局限于专门工具,而是能够灵活运用几乎任何软件,按指令操作。

研究过程


我们此前在工具使用和多模态技术上的研究,为这些新的计算机使用技能打下了基础。操作计算机需要理解和解释图像的能力——在这里特指计算机屏幕图像。此外,还需要推理出何时以及如何执行特定操作。我们通过将这些能力结合,训练 Claude 去理解屏幕上的内容并利用可用的软件工具来完成任务。

当开发者授权 Claude 使用某款计算机软件时,Claude 会查看用户可见的屏幕截图,并计算光标在垂直或水平方向上需要移动多少像素以点击正确位置。训练 Claude 准确计算像素是一个关键步骤。没有这一能力,模型在发出鼠标指令时会遇到困难——就像模型有时难以回答“单词‘banana’里有几个 A”这样看似简单的问题。

令我们惊喜的是,Claude 仅通过少量简单软件(如计算器和文本编辑器)的训练,就能够迅速推广出计算机使用的技能(出于安全考虑,训练时并未允许模型访问互联网)。结合 Claude 的其他能力,这些训练使其能够将用户的书面指令转化为一系列逻辑步骤并在计算机上执行操作。我们还观察到,当 Claude 在执行任务时遇到障碍,它会自行纠正并重试。

尽管在取得初步突破后,进展显得迅速,但到达这个阶段的过程充满了大量的试验与改进。部分研究人员表示,开发计算机使用技能的过程与他们最初想象中的“理想化” AI 研究非常相似:不断地迭代和重新调整,直到看到进展为止。

这种研究终于结出了硕果。目前,Claude 在使用计算机的模型中处于领先地位,能够像人类一样从观察屏幕到采取相应操作。在专门用于测试 AI 模型计算机使用能力的 OSWorld 评估中,Claude 当前的得分为 14.9%。尽管这远未达到人类水平(通常为 70-75%),但相比于第二名 AI 模型的 7.7% 得分,已经是一个显著的领先优势。

保障计算机使用的安全性


每当 AI 技术进步时,安全挑战也随之而来。计算机使用功能主要是为了让 AI 系统更方便地应用现有的认知能力,而不是显著提升这些能力,因此我们对其安全性主要关注当下的潜在危害,而非未来的风险。通过评估我们《负责任扩展政策》中列出的前沿威胁,我们确认,更新后的 Claude 3.5 Sonnet 包含的计算机使用技能仍然符合 AI 安全等级 2——意味着不需要比现有更高的安全标准。

当未来的 AI 模型因为潜在的灾难性风险需要 AI 安全等级 3 或 4 的防护时,计算机使用可能会放大这些风险。我们认为,在模型只需要 AI 安全等级 2 时引入计算机使用功能是更好的选择,因为这可以让我们在风险较低时先处理安全问题,而不是在更高风险的情况下首次启用这项功能。

基于这一思路,我们的信任与安全团队对新的计算机使用模型进行了广泛的分析,以发现可能的漏洞。一个重点关注的问题是“提示注入”——这是一种网络攻击,攻击者通过向 AI 模型输入恶意指令,导致其覆盖原有的指令或执行非预期的操作。由于 Claude 可以解析来自联网计算机的屏幕截图,它可能会接触到包含提示注入攻击的内容。

计算机使用的未来


计算机使用代表了 AI 开发方式的全新变革。此前,LLM 开发者为模型量身打造工具,设计专用环境,让 AI 使用定制的工具完成各种任务。而如今,我们让模型适应已有的工具——Claude 能够融入我们日常使用的计算机环境。我们的目标是让 Claude 能够像人类一样,直接操作现有的计算机软件。

尽管如此,还有很多工作要做。即便它是目前最先进的技术,Claude 的计算机使用功能仍然显得较慢,且容易出错。许多常见的电脑操作(如拖拽、缩放等)目前还无法由 Claude 完成。由于 Claude 是通过“翻书”式的屏幕查看方式——逐帧截取并拼接屏幕图像,而非通过更加细致的视频流进行观察——这导致它可能会遗漏一些短暂的操作或通知。

即便在为今天的发布录制演示时,我们也遇到了一些有趣的错误。在一次录制中,Claude 无意中点击了停止长时间屏幕录制的按钮,导致全部录制内容丢失。在另一场演示中,Claude 突然中断了我们的编程演示,开始浏览黄石国家公园的照片。

我们相信,计算机使用功能将很快得到改善,变得更快速、更可靠,能够更好地满足用户的需求。此外,对于那些缺乏软件开发经验的人,这项功能的使用也将变得更加便捷。在每一个阶段,我们的研究人员都将与安全团队紧密协作,确保 Claude 的新功能能够伴随着合理的安全保障。


二、Claude 3.5 Sonnet:行业领先的软件开发技能

图片


升级后的 Claude 3.5 Sonnet 在行业基准测试中表现显著提升,特别是在自主编程和工具使用任务中取得了突破性进展。在编程能力上,它在 SWE-bench Verified 测试中的成绩从 33.4% 提升至 49.0%,超过了所有现有的公开模型,包括推理模型如 OpenAI o1-preview 以及专为自主编程设计的系统。在 TAU-bench 的工具使用任务中,它的表现也令人瞩目,零售领域的得分从 62.6% 提升到 69.2%,在更具挑战性的航空领域也从 36.0% 提升到了 46.0%。这些进展是在价格和速度与前代产品保持一致的情况下取得的。

早期用户反馈显示,升级版的 Claude 3.5 Sonnet 是 AI 编程能力的一大飞跃。GitLab 在测试该模型的 DevSecOps 任务时发现,其推理能力提升了多达 10%,且没有任何延迟增加,这使它成为多步骤软件开发过程中的理想工具。Cognition 使用该模型进行自主 AI 评估,在编码、规划和问题解决方面的效果相比之前有显著提高。The Browser Company 在用 Claude 3.5 Sonnet 自动化网页流程时指出,它的表现超越了他们以往测试过的所有模型。

升级版的 Claude 3.5 Sonnet 现已向所有用户开放。从今天起,开发者可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 开始使用计算机使用测试版进行开发。全新的 Claude 3.5 Haiku 将于本月稍晚时候发布。


三、Claude 3.5 Haiku:前沿性能,价格与速度兼备

图片

Claude 3.5 Haiku 是我们下一代速度最快的模型,在保持与 Claude 3 Haiku 相同成本和速度的基础上,全方位提升了技能表现,并在多个智能基准测试中超越了上一代最大的模型 Claude 3 Opus。Claude 3.5 Haiku 在编程任务上表现尤为出色。例如,在 SWE-bench Verified 测试中得到了 40.6% 的高分,超过了许多使用最新公开模型的代理,包括原版的 Claude 3.5 Sonnet 和 GPT-4o。

这款模型具有低延迟、改进的指令执行能力以及更加精准的工具使用,因而特别适合用于面向用户的产品、特定子代理任务以及从庞大数据中生成个性化体验,例如购买历史、定价或库存记录等。

Claude 3.5 Haiku 将于本月稍晚时在我们的一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上发布——最初提供文本版本,随后将加入图像输入功能。


素材来源官方媒体/网络新闻