AGI雏形?刚刚Claude重磅升级,支持像人一样操控计算机

全文2215字,阅读约需7分钟,帮我划重点

划重点

01Anthropic的Claude 3.5 Sonnet模型升级,新增计算机使用功能,使模型能够像人类一样操作计算机。

02升级后的Claude 3.5 Sonnet在编程能力上大幅提升,SWE-bench Verified基准测试得分从33.4%提升至49.0%。

03除此之外,Claude 3.5 Haiku模型在所有技能上均有提升,尤其在智能基准测试中超过Claude 3 Opus。

04目前,Claude在计算机使用方面的能力仍处于早期阶段,但代表了AI发展的重大突破。

05未来,随着技术不断发展,计算机使用功能将变得更快、更可靠、更容易使用,解锁更多新的应用场景。

以上内容由腾讯混元大模型生成,仅供参考

图片


Claude 最新版本的 Claude 3.5 Sonnet 现在可以操控计算机(computer use)了。Anthropic认为这项技能——目前处于公开测试阶段——代表了 AI 进步的重大突破

Anthropic 的 Claude 模型又升级了!Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 都来了。Claude 3.5 Sonnet 不仅编程能力更强,还带来全新功能computer use(计算机使用), Claude 现在支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的交互方式

升级版 Claude 3.5 Sonnet 现在就可以使用了。computer use测试版也开放使用

图片

Claude 3.5 的更新内容:

Claude 3.5 Sonnet 升级版: 全面提升,尤其在编程方面,吊打所有公开模型,包括 OpenAI o1 和专门为 agent 编程设计的系统!SWE-bench Verified 基准测试得分从 33.4% 提升到 49.0%,速度和价格保持不变! 这才是真正的加量不加价!

图片

Claude 3.5 Haiku 全新模型: 与 Claude 3 Haiku 相比,Claude 3.5 Haiku 在所有技能上都有提升,甚至在许多智能基准测试中超过了 Claude 3 Opus,它在 SWE-bench Verified 上的得分高达 40.6%,超过了许多使用 SOTA 模型的 agent,包括原始的 Claude 3.5 Sonnet 和 GPT-4o,低延迟、改进的指令遵循和更准确的工具使用,使其非常适合面向用户的产品,主打一个性价比

“计算机使用(computer use)”功能公测: 开发者可以通过 API 让 Claude 像人一样使用电脑——查看屏幕、移动光标、点击按钮、输入文字!🤯 Claude 3.5 Sonnet 是第一个在公测阶段提供“计算机使用” 功能的 AI 前沿模型!(虽然目前还处于实验阶段,有时会出错,但 Anthropic 会根据开发者反馈快速改进)

为什么 Claude 需要使用电脑(computer use)?

为什么需要计算机使用能力?

大量的现代工作是通过计算机完成的。使 AI 能够以与人类相同的方式直接与计算机软件交互,将开启大量目前 AI 助手根本无法实现的应用程序。

不是教 Claude 使用特定工具,而是教它通用的计算机技能, 让它能够像人一样使用各种软件程序

Anthropic 认为,这种通用技能的学习是 AI 发展中重要的里程碑。 在过去的几年里,AI 在逻辑推理和图像理解方面取得了重大进展,而计算机使用能力是下一个 frontier:AI 模型不再需要通过定制工具进行交互,而是可以像人类一样使用任何软件

开发者可以通过 API 让 Claude 将指令转换成计算机命令, 例如,将 “使用我的计算机和在线数据填写此表格” 这样的指令转换成一系列具体的计算机操作

训练过程: 先在简单的软件上进行训练,例如计算器和文本编辑器,然后泛化到其他软件。训练 Claude 准确地计算像素至关重要

研究人员惊讶地发现,Claude 只需要在少量简单软件上进行训练,就可以快速泛化到其他软件。

computer use开发过程:

之前在工具使用和多模态方面的工作为这些新的计算机使用技能奠定了基础。操作计算机需要能够查看和解释图像。它还需要推理如何以及何时根据屏幕上的内容执行特定操作。结合这些能力,训练 Claude 解释屏幕上发生的事情,然后使用可用的软件工具来执行任务。当开发人员让 Claude 使用一个计算机软件并赋予它必要的访问权限时,Claude 会查看用户可见内容的屏幕截图,然后计算它需要垂直或水平移动光标多少像素才能点击正确的位置。

训练 Claude 准确计算像素至关重要。如果没有这项技能,模型将难以发出鼠标命令——类似于模型经常难以回答看似简单的问题,例如“单词‘banana’中有多少个 a?”

研究人员惊讶地发现,Claude 能够快速地从少数简单软件(例如计算器和文本编辑器)的计算机使用训练中进行泛化(出于安全原因,不允许模型在训练期间访问互联网)。结合 Claude 的其他技能,这项训练赋予了它将用户的书面提示转换为一系列逻辑步骤,然后在计算机上采取行动的非凡能力。研究人员观察到,当模型遇到障碍时,它甚至会自我纠正并重试任务。尽管在取得初步突破后,后续的进展很快就出现了,但这需要大量的试验和错误才能达到目标。一些研究人员指出,开发计算机使用非常接近他们刚开始进入该领域时所设想的“理想化”的 AI 研究过程:

不断迭代,反复回到绘图板,直到取得进展,这项研究得到了回报

目前,Claude 在以与人相同的方式使用计算机的模型中处于最先进水平——也就是说,通过查看屏幕并根据屏幕内容采取行动。在一个旨在测试开发人员让模型使用计算机的评估(OSWorld)中,Claude 目前获得了 14.9% 的分数。这远未达到人类水平的技能(通常为 70-75%),但远高于同一类别中排名第二的 AI 模型获得的 7.7%。

computer use(计算机使用)的未来:


目前,即使是最先进的 Claude,它的计算机使用仍然很慢,而且经常出错。许多人们经常用电脑进行的操作(拖动、缩放等),Claude 还无法尝试。“翻页式”的屏幕视图方式(拍摄屏幕截图并将它们拼凑在一起,而不是观察更精细的视频流)意味着它可能会错过短暂的操作或通知

但是

计算机使用是一种全新的 AI 开发方法。 以前,LLM 开发者是让工具适应模型,而现在,我们可以让模型适应工具——Claude 可以直接使用我们每天都在使用的计算机环境。 Anthropic 的目标是让 Claude 像人一样使用现有的计算机软件

虽然 Claude 的计算机使用能力还处于早期阶段,但它代表了 AI 发展的一个重大突破! 未来,随着技术的不断发展,计算机使用功能将变得更快、更可靠、更容易使用,并解锁更多新的应用场景


⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~




图片

👇👇