革命序章:Claude 3.5 新 API,可操作电脑

长话短说


Claude 又发新货


【新】3.5 Sonnet

比老版本更强,还能操作电脑


3.5 Haiku

比 gpt-4o-mini 强


官方新闻


当然

也可以看我下面整理的

先说说 3.5 Sonnet

我认为,这是一场革命

可以操作电脑了!!!



通过最新的 3.5 Sonnet API,允许 AI 像人一样使用操作电脑,包括不仅限于查看屏幕、移动光标、点击按钮和输入文本。

相关的文档,可以在此处找到:


下面这是一段示例调用:

图片


原理大概是这样:


第一步:明确工具和任务

在 API 请求中添加由 Anthropic 定义的计算机工具,并附上可能需要用到这些工具的提示词。例如:“把一张猫的图片保存到我的桌面。


第二步:Claude 选择使用工具

Claude 会读取已存储的计算机工具定义,判断是否有适合的工具能帮助解决用户的问题。如果有,Claude 会生成一个正确格式的工具使用请求。API 的响应中会显示 stop_reason: tool_use,表示 Claude 决定使用工具。


第三步:提取工具信息,运行工具并返回结果

从 Claude 的请求中提取工具名称和输入内容。然后,在虚拟机或容器环境中运行这个工具。继续与用户对话时,要包含一个带有 tool_result 结果的消息。


第四步:继续使用工具直到完成任务

Claude 会分析工具的结果,判断是否需要继续使用更多工具。如果需要,Claude 会再次发送一个 stop_reason: tool_use,然后你需要重复第 3 步。如果任务已完成,Claude 会生成一条文字回复给用户。

参数与价格

图片


在正常使用的情况下(Batch 半价):

  • 输入: $3 / 100万 token

  • 输出:$15 / 100万 token


如果命中缓存

  • 输入: $3.75 / 100万 token

  • 输出:$0.30 / 100万 token


Claude 3.5 Sonnet 已经正式上线于网页和 App,并支持通过 Anthropic API、Amazon Bedrock 和 Google Cloud 进行调用。

再说说 3.5 Haiku

常规更新,性能比 GPT-4o-mini 强

参数与价格

图片


在正常使用的情况下(Batch 半价):

  • 输入: $0.25 / 100万 token

  • 输出:$1.25 / 100万 token


如果命中缓存

  • 输入: $0.3 / 100万 token

  • 输出:$0.03 / 100万 token


目前只是发布,还没正式上线(Comming Soon)

最后

OpenAI,看看人家!


以及 OpenAI 的操作电脑功能,啥时候发布