今天起，国产AI可以像人一样用手机了！一手实测在此

量子位

2024-10-26 18:06发布于北京量子位官方账号

全文4792字，阅读约需14分钟，帮我划重点

划重点

01国产AI AutoGLM实现了像人一样使用手机，通过语音指令完成各种任务，如打开微信、搜索文章、点外卖等。

02AutoGLM背后的技术核心是自进化学习框架WEBRL，通过不断自我改进，使AI变得越来越聪明。

03除此之外，智谱还推出了清言插件，支持大众点评、小红书、高德地图等APP，提供网页总结、划词、写作助手等功能。

04智谱的技术发展路线与OpenAI有所不同，采用自回归填空作为主要的预训练目标，强调对语言结构的理解和生成能力。

05目前，智谱的AutoGLM已在手机上实现自动驾驶模式，未来将继续努力迈向AGI。

以上内容由腾讯混元大模型生成，仅供参考

金磊发自凹非寺
量子位 | 公众号 QbitAI

继Claude发布Computer Use惊艳全场，就在刚刚，一个国产AI实现了像人一样使用手机！

而且还不像Claude需要打字提需求，现在手机的“手”是可以稍微去掉一些了，因为光靠嘴说就可以实现很多功能。

例如给微信朋友圈点赞+评论，现在只需对着手机说一句：

帮我打开微信，给老板的第一条朋友圈点赞，并写一条评论，内容是“风景真的很漂亮”。

然后啊，AI就“唰唰唰”地自己开始动手：

△本文视频除提示外，所有操作均由AI执行

不难看出，在给这个AI下达命令之后，它自己就可以执行如下步骤：

打开微信 → 搜索人 → 进入对话框 → 点击头像 → 点开朋友圈 → 找到一条内容 → 点赞 → 评论。

而中间几个关键且较为敏感的步骤，AI还会提醒是否还要“继续执行”，也是避免了一些乌龙的发生。

如此一来啊，我们就可以一定程度地解放双手，把中间繁琐的过程都交给AI来处理。

除此之外，像给老板发微信请假，也是可以用说的：

帮我给老板发个微信，生成一段内容，表达一下我发烧很严重，今天想请假。

00:00 / 00:33

视频地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

可以看到，这个AI不止是简单的请假，而是晓之以理动之以情地帮我生成了一段文字。

并且内容也称得上是教科书般的请假了。

那么这个国产AI到底是什么来头？

不卖关子，它正是智谱刚刚上新的功能——AutoGLM，主打一个让你的手机变成“自动驾驶”模式。

但说到最直观的感受，那就是火爆已久的生成式AI，已经不再停留在简单的生成阶段，而是真真儿地开始深入到硬件替人做执行和操作。

不过在我们深度体验一番之后发现，发微信、朋友圈点赞，还仅仅是AutoGLM能力的一隅。

导航、点外卖，AI都可以替你操作

还是先顺着微信，AutoGLM还可以对公众号的文章做总结。

例如我们用语音提个需求：

帮我看下量子位最近有没有关于GPU相关的文章并做总结。

00:00 / 01:04

视频地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

从演示中我们也能看到，如果AutoGLM在转文字时出现了错误，我们也是可以手动进行修改。

并且即便不是特别具体的要求，例如“最近三篇文章写了什么”这样比较泛的问题，AutoGLM也是可以hold住的。

但除了微信之外，其实AutoGLM已经深入到了手机上与我们“衣食住行”相关的各个角落。

点外卖，可以用说的

接下来，我们尝试让AutoGLM点外卖，看看它是否能够hold住：

帮我在美团上点一杯瑞幸咖啡的茉莉花香拿铁。

00:01 / 01:07

视频地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

也是只需要一句话，AutoGLM就自动在手机上执行了如下的操作：

打开美团APP → 搜索“瑞幸咖啡” → 选择最近的店铺 → 搜索“茉莉花香拿铁” → 点击“去结算”。

期间，在口味的选择这个步骤中，也是可以通过语音的方式和AutoGLM沟通。

如此一来，以后点外卖就变成“口头和AI交流”+“手动支付”一下了。

购物，也是可以用说的

和点外卖类似，现在AutoGLM加持下的手机，也可以用说话的方式来购物。

例如我们想回购一件商品，可以提出这样的要求：

我上个月在淘宝买过一副眼镜，帮我再回购一次。

00:00 / 00:47

视频地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

AutoGLM在了解意图之后，精准的在历史订单里的“近一个月”范围内找到了买过的眼镜，然后用户只需要操作一下支付即可。

当然，像搜索特定牌子的衣服之类的需求，AutoGLM也是可以轻松拿捏。

订车票、酒店，一句话搞定

在“衣”和“食”之后，我们继续来测试一下AutoGLM在“住”和“行”方面的能力。

例如在携程上订酒店：

帮我在携程上订10月25号到30号，环球影城附近评分最高的酒店。

00:00 / 01:02

视频地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

定位、选日期、按评分排序、订酒店……直到付款前，AutoGLM在操作上可以说是一气呵成。

再如在12306上订车票：

帮我在12306上订一下明天上午，从上海出发到北京的高铁票。

00:01 / 00:56

视频地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

由此可见，手机加持了AutoGLM之后，“衣食住行”的交互方式直接迈进自动驾驶模型。

而且除了刚才我们展示的功能之外，AutoGLM目前还支持大众点评、小红书、高德地图等APP哦~

不过有一说一，说到Auto这件事儿，智谱除了在手机上发力之外，早在电脑端的网页上就已经展现出来了。

电脑网页也可以变得很Auto

智谱让网页变得Auto的工具，便是它推出的插件——清言。

或许很多小伙伴会说，不会又想说网页总结、划词、写作助手、翻译、问答这些功能吧？

确实，清言插件的确包含了这些现在AI插件似乎都应该具备的基本功能，但这仅仅是在清言的“通用模式”。

但如果点开旁边的“高级模式”，那么玩法就截然不同了。

例如在小红书的网站要找某些攻略，我们可以不用再挨个帖子看内容、“货比三家”的来找了。

只需要在清言插件的高级模式中，给一个提出需求的动作即可，AI会自动帮你筛选并找到最优解。

举个例子，我们在清言中点击“站内高级检索”，并输入：

北京最近一个月最火的旅游攻略。

00:01 / 01:02

视频地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

从整个过程来看，在发送需求之后，我们就不需要做任何事情了。

清言也会像AutoGLM一样，自动执行一系列步骤：

输入搜索信息“北京旅游攻略”
判定筛选条件为“最新+最热”，即“综合”
更改搜索信息为“北京旅游攻略10月份”
挨个打开Top 5的内容，并对图片和文字做识别
给出最终总结内容

嗯，确实是节省了亲自做比较+思考的时间。

而这个“站内高级检索”若是放在知网这样的平台，那么对学生党和科研当来说，简直就是大写的方便：

检索2024年大语言模型相关的期刊论文。

同样的，整个搜索、筛选到最终给出结果的过程中，完全无需人为干预，清言上演全自动模型。

当然，若是对AI整理的内容还是不够满意，清言还提供一种“人机结合”的模式——量子速度。

点击这个模式之后，就会在网页各个细分条目后出现一个选择框，我们可以pick自己重点或更倾向的内容，然后再交给清言做处理：

00:05 / 00:43

视频地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

据了解，电脑网页中的这种自动驾驶模式，目前清言已经支持了小红书、知网和知乎。

那么接下来的一个问题就是：

如何做到的？

从我们实测的所有案例中不难看出，智谱的AutoGLM，其实是把AI从“语言”阶段，拉高到了“执行”的层面。

AutoGLM不再仅仅是回答问题的AI，而是可以理解我们的指令，并模拟人类操作各种应用场景。

正如我们展示的它能帮我们读网页、在电商平台购物、订酒店、点赞朋友圈、发微信等等，让AI变成助手这件事儿真正能付诸于行动。

究其背后的技术核心，主要就是AutoGLM的智能体能力了。

与传统的只会简单API调用的AI不同，AutoGLM能理解屏幕上的信息，自动规划任务，并在执行过程中根据实际情况自我判断和调整。

用户只需通过简单的语言指令，就可以让它完成复杂的操作，这种能力背后的支撑来自于它强大的任务规划和执行机制。

这就与Apple Intelligence等市面上主流的传统AI智能体拉开了差距。

（PS：昨天苹果刚发布的iOS第二波AI能力，依旧停留在生成阶段。）

再具体到更细节的技术，AutoGLM背后的自进化学习框架也非常值得一提。

智谱为此开发了一个名为WEBRL的在线强化学习系统，专门来解决训练任务不足、反馈信号稀少等问题。

通过加入自适应学习策略，AutoGLM能够在使用过程中不断进化，持续提高自己的表现和效率。

也正是这种不断自我改进的能力，使得AutoGLM变得越来越聪明，越来越能贴近人类的需求。

智谱，领跑了“AI新赛季”

有一说一，仅仅是通过APP可以实现这一点上，智谱的这步棋下得称得上是较为超前的。

毕竟在前两天Claude发布Computer Use的时候，很多人就表示AI竞赛已经来到了新赛季。

这也与当下大模型技术发展的趋势相契合——

一言蔽之，就是成熟的AI，应该学习自己做事儿了。

早在去年开始，大模型的圈子里就开始盛行大语言模型（LLM）的“进化体”——大型动作模型（LAM，Large Action Model）。

其核心也是希望能够摆脱目前大模型只能做生成任务的禁锢，能够借各种AI硬件作为载体，向执行层面去过渡。

无独有偶，在AI PC和AI手机圈子里，各大玩家也是把眼光都聚焦到了这种新范式，包括联想、荣耀等等。

其模式也是通过文字或语音，把任务交给端侧原生的AI，让它们能够自行处理任务。

而且不仅是端侧的AI硬件厂商在跟进，就连底层的算力玩家也在做着适配。

例如前两天高通就为此宣布直接把桌面级的CPU塞进了手机里面。

不过仅仅是通过一个软件，更是只通过语音就能让AI在手机上实现像人一样全自动地操作，智谱可以说是在这个赛季玩家中的首个。

而作为国内少数能够跟OpenAI全面对标的大模型玩家，智谱能够做到这点其实也并不意外。

从早期的技术路线的发展来看，智谱面对OpenAI这个毋庸置疑的全球大模型头部选手，它的选择是做一个“追赶者”。

从纯文本对话，到文生图、代码、搜索、视觉，再到今年的文生视频、超拟人语音等多模态。

虽然从各种产品和模态上几乎可以不落的和OpenAI逐一连线，但其实智谱从起点来看，在最根儿上的技术本质却截然不同——

OpenAI的GPT系列则主要使用自回归模型，这种模型在生成文本时是单向的，即它只能基于之前的词来预测下一个词。

但这种单向性可能限制了模型在某些自然语言理解（NLU）任务中的表现，因为它无法充分捕捉上下文之间的依赖关系。

而智谱的GLM采用了自回归填空（autoregressive blank infilling）作为主要的预训练目标。这种方法允许模型在生成文本时同时考虑上下文信息，从而增强对语言结构的理解和生成能力。

不仅如此，在生态方面，二者也有明显的不同。

例如众所周知的，OpenAI一直在坚持闭源的形式；而智谱则是闭源和开源两头抓，截至目前，其开源的模型如下表所示：

而不仅是这一次AutoGLM做到了抢先，智谱在八月也抢先OpenAI把类似4o的AI视频通话上线到了清言APP中；并且就在刚刚，其背后的GLM-4-Voice也正式开源。

00:37 / 02:33

视频地址：https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

由此，若是把上述的各个节点连起来，放到时间的X轴里，智谱的技术发展路线就一目了然了——正在一步一步迈近AGI：

若是按照自动驾驶领域“L几”的说法，在智谱看来，迈向AGI，一共分为L1-L5：

其中，L1语言能力、L2逻辑与思维能力和L3工具能力，是目前业内比较有共识的三个AI级别。

但在在L4和L5上，智谱和OpenAI还有一些区别。

在智谱看来，L4级人工智能意味着AI可以实现自我学习、自我反思和自我改进。

L5则意味着人工智能全面超越人类，具备探究科学规律、世界起源等终极问题的能力。

但人工智能多大程度上能够做到像人脑一样，甚至超越它呢？

对于这个问题，智谱认为我们大致也将在未来相当长的一段时间处于42%这个阶段。

（42 这个百分比灵感来自《银河系漫游指南》，the journey to AGI is now 42% completed，是小说里名叫“深思”（Deep Thought）的超级电脑，经过750万年的计算，给出的关于生命、宇宙以及任何事情的终极答案。）

大脑是一个非常复杂的系统，包括听觉、视觉、味觉、语言等多模态的感知与理解能力，有短期和长期记忆能力，深度思考和推理能力，以及情感和想象力。

另外，作为人身体的指挥器官，大脑还懂得调动身体的各个部分协同运转，使用各种工具。

正如下面这张图上显示的，有些能力今天的大模型已经解锁，比如文本，视觉，声音，比如一定的逻辑和使用工具的能力，有些模态的能力树还没有点亮，这些也是智谱未来会一直为之努力的方向。

数年前智谱CEO张鹏就曾说过这么一句话：

不做，不追，你永远不知道你能跑多快，跑多远。

现如今回头来看，对于当年“能跑多远”的期待，已然是有了明确的结果——

做了，追了，智谱已经开始跑在了OpenAI的前面。

最后，附上这次智谱新功能的入口。

AutoGLM浏览器插件地址：
https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_lzw

AutoGLM安卓内测地址：https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh