刚刚 Claude 3.5 升级发布:AI 可像人一样操控电脑,查资料、填表格、写代码、改 bug、发布网站

作者子川

来源AI先锋官


就在刚刚,Anthropic摊牌了,不装了!

图片

Anthropic发布了最新升级的Claude 3.5 Sonnet和全新版Claude 3.5 Haiku!

同时还带了一项贼吊炸天的新功能:Computer Use

其主要功能就是,可以让Claude 像人一样,控制你的电脑,帮你写代码、填表格、改 bug、 发布网站。

总之,任何和电脑交互的行为它都能帮你干!

图片
此次发布会信息量有点密集,咱一个一个说!

新功能 Computer Use, AI 像人一样操控电脑

它的能力就和它的名字一样。开发人员可以通过API让Claude 像人一样使用计算机。无论是查看屏幕、移动光标、单击按钮还是输入文本,统统不在话下。

废话不多说,直接看演示视频。

从视频中我们可以看到,Claude居然能根据用户的提示安排行程。

只需告诉Claude,我想和朋友去金门大桥看日出。

Claude就自动打开Google搜索信息,金门大桥和用户居住地有多远呢?Claude会自己打开地图查找距离。

收集到相关信息后,打开日历,把行程信息添加进去。

不仅如此,它甚至能操作我们的电脑创造一个网站。

比如,只需告诉它一声:“做一个90年代风格的网站”

它立马就打开Google浏览器中的Claude AI,并且还会自动输入提示词指挥Claude写代码。

并将写好的代码保存下来,最后把代码放到在VS Code上运行。期间遇到报错,它都能识别错误,并成功解决它。

图片

那它是任何实现的呢!这一点在官方文档中给出答案。

主要分为下面四步

第一步:定义任务和所需工具。把 Anthropic 提供的电脑工具加入到 API 请求中。同时附上可能使用这些工具的示例提示词,如:“保存一张猫咪的图片到我的桌面”。
第二步:Claude 决定工具的选择。Claude 会检查现有的计算机工具的定义,以判断是否有合适的工具来满足用户需求。如适用,Claude 会构建一个正确的格式请求使用该工具。API 响应中将显示 stop_reason: tool_use,以表明 Claude 决定了要用哪个工具。
第三步:获取并执行工具。提取 Claude 请求中的工具名称和输入数据,然后在虚拟机或容器中运行这个工具。继续与用户的对话,并在消息中包含带有 tool_result 结果的信息。
第四步:循环使用工具直至完成。Claude 会评估工具的输出结果,判断是否需要进一步使用其他工具。如果需要,Claude 会再次发出 stop_reason: tool_use,并返回到第三步。若任务已完成,Claude 将为用户生成一条文字回复。
下面这是一段示例调用:

图片

目前Computer Use这个新功能只能通过API使用,而且还在测试中。

根据官方的说法就是:“效果还不太好,请谅解”!

Claude 3.5 Sonnet全面升级,编程能力超o1-preview模型

在Anthropic最新发布的报告中指出,升级过后的Claude 3.5 Sonnet性能得到大幅度提升!
在研究生水平推理、数学、多语言领域超越GPT-4o和原来的Claude 3.5 Sonnet模型。
图片
特别是在编程方面。升级过后的Claude 3.5 Sonnet表现十分抢眼。

将SWE-bench Verified的性能从33.4%提升到49.0%,而且得分高于目前市面上所有公开可用的模型,包括最近风头大盛的OpenAI-preview模型以及专门为编程设计的系统。

SWE-bench Verified 是由 OpenAI 推出的一项新的评估基准。
同时升级版的Claude 3.5 Sonnet还将TAU-bench(一种代理工具使用任务)的性能从零售领域的62.6%提高到69.2%,在更具挑战性的航空公司领域从36.0%提高到46.0%。

全新Claude 3.5 Haiku,又快又好

Claude 3.5 Haiku是Anthropic最新推出的模型。也是生成速度最快的模型,而它的实力同样也不容小觑。

在许多智能基准上,Claude 3.5 Haiku的表现超过了上一代最大的模型 Claude 3 Opus。

此外, Claude 3.5 Haiku 在编码任务上同样表现优异。
在 SWE-bench Verified 上得分为 40.6%,要优于许多使用公开可用的最先进模型(包括原始的 Claude 3.5 Sonnet 和 GPT-4o)。
不过根据官方发出的测评报告。Claude 3.5 Haiku的整体效果和GPT-4omini差不多。

图片

不过遗憾的是,Claude 3.5 Haiku 目前还未发布,将在本月晚些时候发布,最先是以纯文本模型与大家见面,后续会开放图片输入。

不过目前最新升级的Claude 3.5 Sonnet和Computer Use都已经投入使用,感兴趣的朋友可以冲啦!


图片

 .END.

往期文章回顾