文|邓咏仪
编辑|苏建勋
11月29日,智谱AI的Open Day上,气氛达到顶峰的一刻,无疑是智谱CEO张鹏举起手机,对AI说:帮我在智谱开放日的群聊里发个两万的红包,数量为一百个,名字为"AI给你发的第一个红包"。
而后,AI迅速调用微信,并且打开发开红包功能,成功发布。
“AGI不只是一个ChatBot(聊天机器人),一个语言模型,也不只是模型参数量。”智谱AI CEO张鹏表示。
△来源:智谱AI
这也能解释,为什么进入到2024年,Agent(智能体)的风越吹越烈——全球范围内,包括Google等巨头,到国内的百度、阿里、字节等等,纷纷推出自家的Agent产品。
业内普遍认为,2025年将是 Agent 爆发之年。Gartner近期将 agentic AI 列为 2025 年十大技术趋势之一,并预测 2028 年至少有15%的日常工作决策将由 agentic AI 自主完成,而这一数字,在2024年是0。
Agent(智能体),可以理解为是一个AI代理,帮助人类完成一些过程性的软件操作。
张鹏用一句话概括了AI Agent的本质:“我们也不断思考大模型的“序列预测”意味着什么,以及以何种形式高效应用。如果预测的形式不限于语言文本,而是扩展至图像视频,甚至是操作序列呢?"
完成操作序列,或者说任务,就是AutoGLM的本质。
AutoGLM的形态是一个在App、Web、PC端上的助手。智谱在今天的发布会上,正式发布了对应这三个端的产品:
AutoGLM ,可以自主执行超过 50 步的长步骤操作,也可以跨 app 执行任务
AutoGLM,开启「全自动」上网新体验,支持等数十个网站的无人驾驶
GLM-PC ,像人一样操作计算机,正式启动内测,并且基于视觉多模态模型探索通用Agent
一个月前,智谱就已经放出了AutoGLM的内测,这一个月中已经有超过100万的用户访问。Demo已经能够在微信、淘宝、美团、小红书等App上操作,能够完成包括发红包、用支付宝代点咖啡等等操作。
今天的发布会上,AutoGLM能力更强了——支持的App增加了抖音、微博、京东、拼多多等App,而且更重要的是,可以完成跨App、跨端操作。
△查餐厅+预订场景 来源:智谱AI
举个例子,在现场demo里,智谱清言插件自动完成了“搜索芒果tv,打开小巷人家,播放最新一集,发弹幕结局打卡”。全程没有人的干预。
在另一个采购火锅食材的例子中,AutoGLM自主执行了54步操作,并且中间并未被打断。在多步、循环任务中,AutoGLM 的速度表现也超过人手动操作。
△来源:智谱AI
张鹏也用手机调用了微博,模仿人类操作,打开明星的微博主页,在某一条微博上留下了一条文字评论——AI同样顺利完成。
而在PC上,则可以完成更多日常工作的任务,包括帮用户预定和参与会议,发送会议总结;支持文档下载、文档发送、理解和总结文档等等。
△来源:智谱AutoGLM
另外,也支持跨应用的信息搜索和总结——比如在指定平台(如微信公众号、知乎、小红书等)搜索指定关键词,完成阅读、总结。
看似简单,但是Agent能够完成这些操作,涉及到的操作和权限都非常复杂。比如,微信内部就有严格的反爬虫机制,机器人一旦被识别出来,极容易封禁。小红书的帖子甚至复制内容都很困难——以前的普遍操作是,用户先截图,然后再用其他软件把文字提取出来。
Agent并不是一个新的技术词汇,而是早在数十年前就出现。
希望让机器帮助人类完成软件工作,此前也有iPaaS、RPA(机器流程自动化Robotic process automation,简称RPA)、甚至更传统的BPM(流程管理)等赛道,都在探索完成过程性、重复性的工作当中。
不过,过往的技术都会遇到影响准确率、可行性的多个因素,包括AI图像元素抓取不准、识别各个软件的Api开放程度不高等问题。但大模型出现后,这些问题能够解决——大模型能够清晰理解软件界面指向的是什么事物,也不会因为图像元素的轻微改动,而出现识别错误的问题。
AutoGLM技术负责人刘潇对《智能涌现》表示,AutoGLM是代理用户进行操作,依托“用户同意可交互界面”,本质是模拟人类操作来调用——和原来的api调用、机器调用有根本区别。
毫无疑问,包括具身智能、Agent是2024年热门了一整年的话题。大模型技术正在从单纯的模型层走出,走到改变机器和人的互动方式——基于理解需求、规划与决策、执行行动和自我反思,让机器更好地理解人,从而更好地完成任务。
这也和近期的Scaling Law大讨论形成映照。
Scaling Law是推动大模型迭代的重要定律。在ChatGPT出来后的两年,大模型厂商普遍以预训练模式为主——给模型喂更多高质量数据,让模型在达到一定规模后涌现智能。
但在今年9月OpenAI发布新模型o1之后,这意味着Scaling Law的一种转向——从训练规模、参数更大的模型,转到了以后训练为主,让模型拥有更多思考时间而不是更多参数,从而让模型可以思考更加复杂、艰难的问题。
△ 来源:智谱AI
张鹏认为,如今的今天发布的AutoGLM,只是GLM模型大家族能力的一种“收束”,以及迈向AI智能操作系统的开始和尝试。
Scaling不只是“目前来看,我比较赞同的一个观点是,计算量可能是关键,即有用的信息。”
“现阶段,AutoGLM 相当于在人与应用之间添加一个执行的调度层,很大程度上改变人机的交互形式。更重要的是,我们看到了 LLM-OS 的可能,基于大模型智能能力(从 L1 到 L4 乃至更高),未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”
以下为智谱CEO张鹏、智谱AutoGLM技术负责人刘潇的会后采访,经《智能涌现》整理:
智能涌现:比如说像各个大厂,比如说美团、抖音微信都会做自己的agent。然后比如说咱们发布了这个AutoGLM之后,怎么考虑生态位的问题。软件,包括一些端侧,其实中间的应用墙也是很厚的,包括一些底层的权限,也不是那么好打通,就是质谱怎么解决这个问题的。
张鹏:这个一半是商业的问题,一半是那个技术侧的问题。
刘潇:AutoGLM希望能成为一个帮助人们更好地连接硬件、应用及服务的中枢。它应该是一种工具,通过自然语言的方式,使用户能够更简便地组合各种功能,而且是按照自己个人的意愿去做这个事情。
技术上是挺困难,原本如果他们在原本的生态里,可以拿到数据、自己完整设计,但这也是在一个封闭平台进行开发,你没有办法去和其他人很好的合作,并且你的模型就是我们的模型也不够聪明,不能够去更好的去连接。
我们接下来希望能够让模型去连接各个大厂应用的生态,这是我们接下来很重要的开发重点。
张鹏:从商业的角度来说,大家是一个互利的方式,我们会有这样的底层生态,给大家提供基础平台。现在的这些新的厂家都可以在这个平台各取所需。比如,他们自己建的Agent体系,可以连接到更多其他平台。
Q:我想探讨一个技术性细节问题。智能体要完成复杂的业务流程,需要调动大量数据和应用程序。但许多网站和APP拥有自己的API,且这些API并不完全统一,缺乏标准化。这可能导致企业很难用上Agent。你们会怎么解决?
刘潇:AutoGLM,我们本质上是用户图形化交互界面为主,和API调用有根本差别。他实际上是模拟人类在操作,而不是用传统的API。
以前用API的时候,比如昨天我们打通了应用,但过一周上了新版本,就很容易失效了。
但是通过用户重新化交互界面,其实就规避了这个问题。因为只要这个界面它依然是人类可以理解的,是用户真正能用的软件界面,就可以适用。
Q:为什么去年大家都没有怎么提Agent的概念,今年开始提?你觉得满足了什么要素?
张鹏:首先,关于去年讨论较少的问题,确实是因为我认为大家可以参考我们之前的一些方案资料。包括我们提到的APP能力,它实际上是模型能力的一种体现。如果程度不够,那么它可能无法达到预期的效果。所以那时提出的问题是,由于你的能力不足,效果并不理想。
模型这个事情更多是人机交互的场景,大家感受能比较明显的。以前大家面向系统、开发等等企业级应用,所以之前大家不是很可以感知。
另一方面,随着技术进步和关注度的提高,现在软件、硬件厂商也越来越多地参与适配。因此,这两个条件的满足,让我们在端侧有感受更明显了。
Q:Scaling Law有放缓吗?你的态度是什么?智谱怎么找解决办法?
张鹏:我们今天展示的正是这样路径的探索。例如,当语言遇到可能无法逾越的人类认知极限时,我们是否能突破这一界限?这可能需要大量的数据和大规模的处理。
此外,在多模态方面,今天我们讨论的Agent上,这都是可以尝试Scaling的。实际上,还有很多领域值得我们去探索。
Scaling Law放缓只是一个现象,是我们最终观察到的结果。这个系统的本质是什么?我们一直在讨论这个问题,寻找其本质。
目前来看,我比较赞同的一个观点是:计算量可能是关键,即有用的信息。
预训练是放缓了,但是后训练的曲线现在也是有Scaling的效果,只是不会像预训练阶段,简单粗暴只看到数据量和参数量的上升。
Q:刚刚看到就是agent的很多有趣的应用,但是离你刚刚提的生产力场景,还是有一点差距。如果以后要用agent去覆盖更多,比如说50%、80%的我们的设备使用场景,或者说让他做更多预训练之外的一些事情。那我们接下来会需要去做哪些事情?
刘潇:其实就像今天在发布会上技术报告里面,我们所介绍的,现在预训练的Scaling Law,确实在业界现阶段由于数据问题,遇到了一定的瓶颈。
但是像o1,其实像AutoGLM本身代表了Agent的这种Scaling打开了一条新的技术,继续往上突变的这样一条道路。
我们几乎找到了跟OpenAI o1 blog里面表现出来的Agent Scaling Law一样的效果。所以说接下来其实就是我们怎么更好的在这样的一个模型的基础上做迭代。
预训练还有空间,但需要新的算法、框架、数据转变。
Q:你们年初的时候,你们To B To C都有很多路线。To C有GLM OS、还有生产力应用。现在To B还做,C端收缩成Agent。之前的OS是放弃了吗?
张鹏:我认为这并不是放弃。探索的过程实际上是一个不断尝试和试错的过程,对吧。其实可以理解为,它是我们最开始对Agent的理解,现在是更具象地收束成现在的Agent能力。
这些能力产生的效果我们认为是巨大的,因此我们将其具象化,并不意味着那些探索没有意义。
其实紧接着我们可以看到很多的东西出来。今天是操作手机和电脑,明天可能是操作你的数据库和企业数据,来生成分析报告等等。
大家现在只是每天对这类事情的接受程度的理解更容易一些,并不代表就比如To B或者企业内部就没有应用。
Q:远期来看,Agent会主要通过现有的操作系统和硬件来呈现,还是会出现新的硬件的形式。就是你们怎么思考这个问题?在这个事情里面,质朴的一个定位是怎么样的?
张鹏:我认为我们定位是是一种开放的平台,来做这个事情。
之前提到的硬件问题,首先,这是一个符合世界演进和发展规律的正确方向。
现有的东西,我们尝试去改造它。我们先不管你权限多大,我先找一下是不是他最简单、直接的这种方式。对新的方向,比如也有人做一些尝试,比如一些AI硬件,像AI Pin,AI Rabbit,这些可能是下一代的智能硬件的体现。
我们也希望能够借助AI的这一波当中,能够产生更多想象,更快的去孵化新的应用,我们也会助力大家。
Q:整个大模型行业。咱们觉得目前未来可能遇到的最大的难点可能会是什么?
刘潇:Scaling Law还是很有效、很重要的,咱们不能随便放弃他。很多时候,当你认为在某个问题上做不出来,并不是Scaling Law有什么问题,而是你把问题想窄了。
那如何真正从算法上进行创新和改进,这是关键所在。
人们总是高估技术的短期影响,低估技术的长期影响,特别着急,但是转个头,稍微等几个月,会发现会有很大差别。
欢迎交流
欢迎交流