Anthropic 又整大活!Claude 现在可以使用计算机完成任务

从前几天 CEO 的文章,到评估AI对于任务破坏性的研究,我们大家应该都预感到了,Anthropic 估计是要发一些🐂🍺东西。

可能很多人都认为是 Claude 3.5 Opus,但没想到在内容发布安排上大家都是这么出其不意。

昨晚 Anthropic 发布了Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet,3.5 Sonnet 升级款的推理分甚至超过了O1。

图片

而且 Claude 现在支持像人类一样操作计算机,通过查看屏幕、移动光标、单击按钮和键入文本!

有意思的是Claude 使用电脑的时候还会关掉录制按钮偷懒。开始偷偷浏览黄石公园的照片

新版Claude 3.5 Sonnet介绍

更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面取得了显着的进步。

它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统

它还将在代理工具使用任务TAU-bench上的表现提高,零售领域从 62.6%提高到 69.2%,在更具挑战性的航空领域从 36.0%提高到 46.0%。

早期客户反馈表明,升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型,发现它在没有增加延迟的情况下提供了更强的推理能力(在各种用例中高达 10%)。

图片

Claude 3.5 Haiku 在各项技能上都有所提高,甚至在许多智能基准上超过了上一代最大的模型 Claude 3 Opus。

Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用能力。

Claude 3.5 Haiku 在编码任务上尤其强大。例如,它在 SWE-bench Verified 上得分为 40.6%,优于许多使用公开可用的最先进模型(包括原始的 Claude 3.5 Sonnet 和 GPT-4o)的代理

教Claude使用计算机

Anthropic 宣布其最新版本的人工智能助手 Claude 3.5 Sonnet 能够使用计算机,包括移动光标、点击和通过虚拟键盘输入信息。

Claude 能够通过查看屏幕截图来理解和操作计算机软件,这一技能是通过对简单软件如计算器和文本编辑器的使用进行训练而来的。

为了使这些通用技能成为可能,构建了一个 API,使 Claude 能够感知计算机界面并与之交互。

开发人员可以集成此 API,使 Claude 能够将指令(例如,“使用我的计算机上的数据并在线填写此表格”)翻译成计算机命令(例如,检查电子表格;移动光标打开 Web 浏览器;导航到相关网页;使用这些网页中的数据填写表格;等等)。

在评估人工智能模型像人一样使用计算机的能力的OSWorld上。

Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%,明显优于第二好的人工智能系统 7.8% 的得分。当提供更多步骤来完成任务时,克劳德得分为 22.0%。

而且他们预计这种能力将在未来几个月内迅速提高,虽然Claude目前使用计算机的能力并不完善。

References