提问:由 AI 发出的红包,你收到过吗?
在今天智谱 Agent OpenDay 上,智谱 CEO 张鹏开场便定下基调:“希望 OpenDay 是一个比较轻松、让大家能够享受科技进步的一个场合。”——他所言非虚,AI 甚至都开始发红包了!
除了最后输入支付密码的操作,张鹏几乎全程只对着手机动了动嘴(撇开由于现场观众手速太快、导致 AI 根本挤不进群聊、他只好把面对面建群的指令重复了 3 遍的意外“翻车现场”):
(1)帮我创建一个面对面群聊,数字为 1129,并将群聊名字改成智谱开放日。
(2)帮我在智谱开放日的群聊里发个两万的红包,数量为一百个,名字为"AI 给你发的第一个红包"。
(3)帮我在支付宝发八百八十八个,总额为一万的口令红包。
不仅如此,他还在 PC 端让 AI 群发文件,还给王心凌的微博点赞留言——这些 Live Demo 的背后,是因为智谱上个月刚发布的产品化 Agent「AutoGLM」 已发生了全新升级:可理解更长的指令、实现更快的速度、还能跨 App 操作,并从手机走向了与 Web 和 PC 协同!
大模型,让机器得以来适应人
张鹏在演讲中首先提到,AI Agent 是如今非常火的话题,从苹果的 Apple Intelligence、Anthropic 的 Computer Use、谷歌的 Jarvis 再到 OpenAI 即将发布的 Operator,全球科技巨头纷纷布局。
在此背景下,智谱于 10 月份率先开放了 AutoGLM 的内测,受到了非常多的关注和反馈,展现了大模型从对话(Chat)走向操作(Act),从生成式 AI 迈向代理式 AI 的演进趋势,目前申请页面已有超过 100 万的用户访问。
事实上,回顾大模型技术出现之前,其实没有任何方法能实现代替人智能地和机器进行交互。不论是键盘、鼠标还是 dos、图形界面,本质上还是让人来适应机器。而张鹏指出:“大模型正在改变这种互动方式,让机器得以来适应人。”
随着近几年大模型技术的飞速演进,尤其是自然语言、多模态感知、逻辑推理等能力不断取得的技术突破,大模型已经初步具备了模仿人类与物理世界互动的能力。为此,智谱定义了大模型发展的五个阶段,与 OpenAI 有所不同:
随着大模型的智能能力已经从 L1 发展到 L3 甚至更高的水平,更为原生、自然的人机交互体验 「Auto 能力」逐渐有望实现,GLM 也因此开始变成 AutoGLM。基于此,智谱最新发布了 Auto 的三个产品:GLM-Phone(AutoGLM)、GLM-Web(AutoGLM)和 GLM-PC(CogAgent)。
手机、Web 和 PC,都「Auto」了
首先是 AutoGLM。根据张鹏介绍,在 10 月份开启内测的版本中,AutoGLM 基本已经能够模拟人类操作手机,如点外卖、朋友圈点赞等,在 AndroidLab 的评测基准中也已超过 GPT-4o 和 Claude-3.5 Sonnet——而全新升级后的 AutoGLM,将挑战更高难度的操作。
更长:升级后的 AutoGLM 可理解超过 50 步的超长复杂指令,并实现连贯自主操作,为人节省更多时间。
更快:在多步、循环任务中,升级后的 AutoGLM 速度表现超过人手动操作。至于单步速度,张鹏透露将在近期做进一步的迭代与优化。
跨 App:升级后的 AutoGLM 将具备 App 思维链,可以跨 App 执行任务。相当于在用户和应用间增加一个执行的调度层,用户将习惯用 AI 自动处理,而不是在多个 App 间来回切换。
基于用户反馈,智谱还给 AutoGLM 做了一些新玩法:短口令,例如用户一句“点咖啡”,Agent 将自动采取对应行动减少超长复杂指令;还有个“随便模式”,即过程中的所有步骤都让 AI 主动帮你决策,直到发送或付款等重要操作时再把选择权重新交回你。
“不仅是手机,Web 端也 Auto 了。”张鹏表示,AutoGLM 开启“全自动”上网新体验,智谱清言插件 AutoGLM-Web 最新上线 AutoGLM 功能,支持知乎、微博、百度搜索、GitHub、谷歌学术等数十个网站「无人驾驶」功能。例如,可以让 AutoGLM-Web 自动完成“在百度搜索芒果tv,打开再见爱人,播放最新一集,发弹幕”的任务,全程没有人的干预。
更为重磅的是,智谱还带来了基于 PC 的自主 Agent:能像人一样操作计算机的 GLM-PC。这也是 GLM 团队面向「无人驾驶」PC 的一次技术探索,其愿景就是:让 AI 像人类一样使用计算机。
例如,下班后你可以用手机给 GLM-PC 发消息,让 GLM-PC 自动进行电脑操作,帮你发送文件:
据悉,GLM-PC 底层模型为智谱自研的多模态模型 CogAgent——这也是世界首个 UI Agent 视觉基座模型。为此,智谱 GLM-PC 技术负责人潘立航分享了关于 CogAgent 技术路线。为了让 AI 脱离计算机的特点、真正像人类一样使用计算机,CogAgent 需要模拟广泛存在于人类交互活动中的“感知、认知、运动”闭环:感知指人类从外部环境获取信息的过程,认知指人类根据外部环境去推理和决策的过程,运动则是指执行决策进而影响环境的过程。
具体来说,从人类模拟感知外部环境的角度出发,CogAgent 需具备视觉感知的能力,能像人一样通过用户界面而非 HTML 来获取信息,适用于任何带有图形用户界面的计算设备;从模拟真人思考的角度出发,CogAgent 需具备逻辑推理的能力,并以自然语言作为推理和决策的媒介,这种方式也方便用户进行检查、控制和干预;从模拟真人交互方式的角度出发,CogAgent 还需能够完成决策的执行,即像人一样操作窗口、图标、菜单和指针等形成一条操作路径,完成给定的交互任务,而不需要依赖于结构化的编程接口。
“简单来说,GLM-PC 用电脑的方式几乎完全和人一样。”张鹏指出,正因如此,GLM-PC 并不依赖于 HTML、API,有着更高的能力上限:理论上来说,只要是为人类设计的应用,GLM-PC 在学习之后都能够执行,这是一种系统级、跨平台的能力。
目前,GLM-PC 的「邀请体验」已开启(https://www.wjx.top/vm/mOs9cHw.aspx),第一阶段的内测体验场景包括:会议替身、文档处理、网页搜索与总结、远程和定时操作以及隐形屏幕。
不过,张鹏也补充道,当前 GLM-PC 离真正面向真实场景还有一些路要走,在目前的内测体验中,用户仍需要精准输入指令,“我们会继续努力,在产品完善后尽快上线,供所有用户使用”。张鹏坚信:一句话操作电脑和手机的时代,即将到来。
“开启一个 AI 原生设备的时代”
在模型能力的不断进步下,单一的文本语言模型发展到如今的多模态模型,它们不仅具备了思考能力,还增强了任务规划和执行的能力。
对此,智谱 COO 张帆指出,智能设备在大模型的加持下,将会焕发出新的机会。例如,手机+AI 将成为随身个人智能助理,PC+AI 将成为全新的生产力工具,汽车+AI 将成为真正的智能第三生活空间。为此在智谱 Agent OpenDay 现场,来自荣耀手机、华硕电脑、小鹏汽车、高通和英特尔的技术代表也作为智谱的客户及合作伙伴,从不同的应用场景出发,分享了他们在智能终端领域的实践经验和未来展望。
正如张帆所说:“我们期待借助这样的 AI 能力,开启一个 AI 原生设备的时代。”