用大模型控制鼠标、键盘!OpenAI最想做的事,让Anthropic抢先了

今天凌晨,全球著名大模型平台Anthropic发布了Claude 3.5 Sonnet升级版以及新模型Claude 3.5 Haiku。

同时推出了一个革命性的功能——Computer use。通过API开发者可以让 Claude 像人类一样使用计算机控制鼠标、键盘,包括查看屏幕、移动光标、点击按钮和输入文本等操作。

例如,用户可以让 Claude 去搜索网页上的信息、在电子表格中填写数据;或者打开软件进行特定的操作;也能协助开发人员执行重复性任务、测试代码等,整个流程Claude 都会根据指令自动执行相应的操作。

微软创始人-比尔盖茨曾在博客里说过,他一生中只见过两次最有影响力的技术革命,一个是他自己发明的图形交互系统Windows,另外一个便是OpenAI发明的ChatGPT。

现在, Computer use再一次颠覆计算机交互用AI来控制一切,OpenAI最想做的事情,让竞争对手Anthropic抢先了,我们正式进入真AI操作系统时代。

Anthropic甩出王炸功能后,网友是彻底沸腾炸锅了,尤其是那些专业的开发人员简直是拿到了屠龙刀,这以后开发效率呈指数级增长。

本以为OpenAI会先做到,没想到被你抢先了。

图片

超级兴奋,很棒的功能

图片

很快每一个人都能像钢铁侠那样,拥有真正的贾维斯助理,帮助你来实际控制电脑。

图片

太酷了!Anthropic的用词非常准确,他使用了“use” 而不是笼统的“智能体”。 因为那样会使一切变得模糊,二者之间还是有区别的。

图片

快让大模型来控制电脑吧,希望以后蓝屏能少一些。

图片

相信很多人看到这个都非常兴奋,这是一种很好的良性创新技术竞争。

图片

技术变革者!

图片

超级超级棒的功能!

图片

太强了!我们团队对于能测试该功能非常兴奋。

图片

Computeruse技术原理简单介绍

目前,Computer use主要依靠API来驱动自动化指令,当开发者通过API向Claude 发送指令时,Claude会运用其自然语言处理能力解析指令。其内部语言模型会对指令文本进行词法、句法和语义分析,例如,对于 “使用计算机中的数据填写在线表格” 这样的指令,Claude 会识别出关键动作是填写表格以及数据来源是计算机中的数据。

这一过程类似它在处理文本生成任务时对语义的理解,只是此时语义重点在于计算机操作。会基于预训练过程中学到的语言模式和知识,将指令意图映射到对应的计算机操作概念上,预训练的知识包括常见的计算机操作术语、软件功能描述等,以便准确执行特定操作。

为了实现与计算机的交互功能,Claude再次通过API来控制Windows、MacOS等系统中的底层框架,包括鼠标、键盘、按钮、文本框等。

当 Claude确定了要执行的计算机操作后,就会开始执行具体的动作。例如,移动光标操作,API会向操作系统发送相应指令,操作系统会将这个指令传递给鼠标驱动程序,从而实现光标的移动。

对于点击按钮操作,API 会先定位按钮在屏幕上的位置,然后模拟鼠标点击事件发送给操作系统。在输入文本时,它会将文本内容通过键盘输入模拟的方式逐个字符或按词组输入到目标文本框中。

知名大模型开发网红Mckay Wrigley已经展示了,如何通过API搭建Computer use开发平台,整个流程还算简单10几分钟就完事了。

新模型Claude 3.5 Haiku

Claude3.5 Haiku在3.0基础上进行了大幅度更新,在相同成本的情况下推理效率、性能得到显著增强。即便与上一代的最大模型Claude 3 Opus相比, 3.5Haiku在许多智能基准测试中都表现出了超越的态势。

在编码任务方面,Claude 3.5 Haiku特别强,在 SWE-bench Verified 上得分达到了 40.6%,超越了许多使用公开可用的最先进模型的模型,包括原始的 Claude 3.5Sonnet 和 GPT-4o。

图片

低延迟推理则是Claude 3.5 Haiku 的另外一个技术亮点。这使得它能够快速响应用户的指令,减少等待时间,提高工作效率。在实际应用中,低延迟对于需要实时交互的场景非常重要,比如在线客服、智能助手等。用户可以在短时间内获得准确的回答和解决方案,提升用户体验。

此外,Claude 3.5 Haiku 在提示指令遵循方面也有很大的改进。能够更加准确地理解用户的指令,并按照指令执行相应的任务。这对于需要精确控制和操作的场景非常有帮助,比如自动化流程、数据处理等。通过更好地遵循指令,Claude 3.5 Haiku 可以减少错误和失误,提高工作的准确性和可靠性。

本文素材来源Anthropic,如有侵权请联系删除