【CNMO科技消息】当地时间10月22日,Anthropic宣布Claude 3.5迎来重大升级,推出Claude 3.5 Haiku和Claude 3.5 Sonnet版本。其中,Claude 3.5 Sonnet在编程能力上得到显著增强,并新增了“computer use”(计算机使用)功能,能够像人类一样操作计算机。
Claude 3.5 Sonnet现在可以遵循用户的命令在计算机屏幕上移动光标、点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的交互方式。这一功能在OSWorld评估中获得了14.9%的分数,虽远低于人类水平的70-75%,但远高于同类AI模型的7.7%。
Anthropic开发者关系主管表示,计算机使用是全新人机交互范式的第一步,也是AI模型应具备的全新基础能力。Claude 3.5 Sonnet已开放使用,computer use测试版也同步开放。
Claude 3.5 Sonnet在多个方面表现出色,特别是在智能体编码和工具使用任务中取得显著突破。在SWE-bench Verified测试中,其性能从33.4%大幅提升至49.0%,超越了所有公开可用的模型,包括OpenAI o1-preview等推理模型和专为智能体编码设计的系统。
然而,Claude的操作仍相对缓慢且容易出错,如拖拽、缩放等日常操作尚无法实现。此外,它观察屏幕的方式类似于连续截图拼接,可能会错过短暂的动作或通知。在录制Demo时,Claude还出现过点击停止屏幕录制和浏览无关照片的情况。
尽管如此,Claude如今的表现仍让人对未来充满期待。AI操作电脑的能力代表了一种全新的人工智能开发方法,未来有望使软件开发等任务变得更加简单。