今天起,国产AI可以像人一样用手机了!一手实测在此

全文4792字,阅读约需14分钟,帮我划重点

划重点

01国产AI AutoGLM实现了像人一样使用手机,通过语音指令完成各种任务,如打开微信、搜索文章、点外卖等。

02AutoGLM背后的技术核心是自进化学习框架WEBRL,通过不断自我改进,使AI变得越来越聪明。

03除此之外,智谱还推出了清言插件,支持大众点评、小红书、高德地图等APP,提供网页总结、划词、写作助手等功能。

04智谱的技术发展路线与OpenAI有所不同,采用自回归填空作为主要的预训练目标,强调对语言结构的理解和生成能力。

05目前,智谱的AutoGLM已在手机上实现自动驾驶模式,未来将继续努力迈向AGI。

以上内容由腾讯混元大模型生成,仅供参考

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

继Claude发布Computer Use惊艳全场,就在刚刚,一个国产AI实现了像人一样使用手机!

而且还不像Claude需要打字提需求,现在手机的“手”是可以稍微去掉一些了,因为光靠嘴说就可以实现很多功能。

例如给微信朋友圈点赞+评论,现在只需对着手机说一句:

帮我打开微信,给老板的第一条朋友圈点赞,并写一条评论,内容是“风景真的很漂亮”。

然后啊,AI就“唰唰唰”地自己开始动手:

△本文视频除提示外,所有操作均由AI执行

不难看出,在给这个AI下达命令之后,它自己就可以执行如下步骤:

打开微信 → 搜索人 → 进入对话框 → 点击头像 → 点开朋友圈 → 找到一条内容 → 点赞 → 评论。

而中间几个关键且较为敏感的步骤,AI还会提醒是否还要“继续执行”,也是避免了一些乌龙的发生

如此一来啊,我们就可以一定程度地解放双手,把中间繁琐的过程都交给AI来处理。

图片

除此之外,像给老板发微信请假,也是可以用说的:

帮我给老板发个微信,生成一段内容,表达一下我发烧很严重,今天想请假。

00:00 / 00:33

视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

可以看到,这个AI不止是简单的请假,而是晓之以理动之以情地帮我生成了一段文字。

并且内容也称得上是教科书般的请假了。

那么这个国产AI到底是什么来头?

不卖关子,它正是智谱刚刚上新的功能——AutoGLM,主打一个让你的手机变成“自动驾驶”模式。

但说到最直观的感受,那就是火爆已久的生成式AI,已经不再停留在简单的生成阶段,而是真真儿地开始深入到硬件替人做执行操作

不过在我们深度体验一番之后发现,发微信、朋友圈点赞,还仅仅是AutoGLM能力的一隅。

导航、点外卖,AI都可以替你操作

还是先顺着微信,AutoGLM还可以对公众号的文章做总结

例如我们用语音提个需求:

帮我看下量子位最近有没有关于GPU相关的文章并做总结。

00:00 / 01:04

视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

从演示中我们也能看到,如果AutoGLM在转文字时出现了错误,我们也是可以手动进行修改。

并且即便不是特别具体的要求,例如“最近三篇文章写了什么”这样比较泛的问题,AutoGLM也是可以hold住的。

但除了微信之外,其实AutoGLM已经深入到了手机上与我们“衣食住行”相关的各个角落。

点外卖,可以用说的

接下来,我们尝试让AutoGLM点外卖,看看它是否能够hold住:

帮我在美团上点一杯瑞幸咖啡的茉莉花香拿铁。

00:01 / 01:07

视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

也是只需要一句话,AutoGLM就自动在手机上执行了如下的操作:

打开美团APP → 搜索“瑞幸咖啡” → 选择最近的店铺 → 搜索“茉莉花香拿铁” → 点击“去结算”。

期间,在口味的选择这个步骤中,也是可以通过语音的方式和AutoGLM沟通。

如此一来,以后点外卖就变成“口头和AI交流”+“手动支付”一下了。

购物,也是可以用说的

和点外卖类似,现在AutoGLM加持下的手机,也可以用说话的方式来购物

例如我们想回购一件商品,可以提出这样的要求:

我上个月在淘宝买过一副眼镜,帮我再回购一次。

00:00 / 00:47

视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

AutoGLM在了解意图之后,精准的在历史订单里的“近一个月”范围内找到了买过的眼镜,然后用户只需要操作一下支付即可。

当然,像搜索特定牌子的衣服之类的需求,AutoGLM也是可以轻松拿捏。

订车票、酒店,一句话搞定

在“衣”和“食”之后,我们继续来测试一下AutoGLM在“住”“行”方面的能力。

例如在携程上订酒店

帮我在携程上订10月25号到30号,环球影城附近评分最高的酒店。

00:00 / 01:02

视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

定位、选日期、按评分排序、订酒店……直到付款前,AutoGLM在操作上可以说是一气呵成。

再如在12306上订车票

帮我在12306上订一下明天上午,从上海出发到北京的高铁票。

00:01 / 00:56

视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

由此可见,手机加持了AutoGLM之后,“衣食住行”的交互方式直接迈进自动驾驶模型。

而且除了刚才我们展示的功能之外,AutoGLM目前还支持大众点评小红书高德地图等APP哦~

不过有一说一,说到Auto这件事儿,智谱除了在手机上发力之外,早在电脑端的网页上就已经展现出来了。

电脑网页也可以变得很Auto

智谱让网页变得Auto的工具,便是它推出的插件——清言

或许很多小伙伴会说,不会又想说网页总结、划词、写作助手、翻译、问答这些功能吧?

确实,清言插件的确包含了这些现在AI插件似乎都应该具备的基本功能,但这仅仅是在清言的“通用模式”

但如果点开旁边的“高级模式”,那么玩法就截然不同了。

图片

例如在小红书的网站要找某些攻略,我们可以不用再挨个帖子看内容、“货比三家”的来找了。

只需要在清言插件的高级模式中,给一个提出需求的动作即可,AI会自动帮你筛选并找到最优解。

举个例子,我们在清言中点击“站内高级检索”,并输入:

北京最近一个月最火的旅游攻略。

00:01 / 01:02

视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

从整个过程来看,在发送需求之后,我们就不需要做任何事情了。

清言也会像AutoGLM一样,自动执行一系列步骤:

  1. 输入搜索信息“北京旅游攻略”

  2. 判定筛选条件为“最新+最热”,即“综合”

  3. 更改搜索信息为“北京旅游攻略10月份”

  4. 挨个打开Top 5的内容,并对图片和文字做识别

  5. 给出最终总结内容

嗯,确实是节省了亲自做比较+思考的时间。

而这个“站内高级检索”若是放在知网这样的平台,那么对学生党和科研当来说,简直就是大写的方便

检索2024年大语言模型相关的期刊论文。

图片

同样的,整个搜索、筛选到最终给出结果的过程中,完全无需人为干预,清言上演全自动模型。

当然,若是对AI整理的内容还是不够满意,清言还提供一种“人机结合”的模式——量子速度

点击这个模式之后,就会在网页各个细分条目后出现一个选择框,我们可以pick自己重点或更倾向的内容,然后再交给清言做处理:

00:05 / 00:43

视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

据了解,电脑网页中的这种自动驾驶模式,目前清言已经支持了小红书、知网和知乎。

那么接下来的一个问题就是:

如何做到的?

从我们实测的所有案例中不难看出,智谱的AutoGLM,其实是把AI从“语言”阶段,拉高到了“执行”的层面。

AutoGLM不再仅仅是回答问题的AI,而是可以理解我们的指令,并模拟人类操作各种应用场景。

正如我们展示的它能帮我们读网页、在电商平台购物、订酒店、点赞朋友圈、发微信等等,让AI变成助手这件事儿真正能付诸于行动。

究其背后的技术核心,主要就是AutoGLM的智能体能力了。

与传统的只会简单API调用的AI不同,AutoGLM能理解屏幕上的信息,自动规划任务,并在执行过程中根据实际情况自我判断和调整。

用户只需通过简单的语言指令,就可以让它完成复杂的操作,这种能力背后的支撑来自于它强大的任务规划和执行机制。

这就与Apple Intelligence等市面上主流的传统AI智能体拉开了差距。

(PS:昨天苹果刚发布的iOS第二波AI能力,依旧停留在生成阶段。)

再具体到更细节的技术,AutoGLM背后的自进化学习框架也非常值得一提。

智谱为此开发了一个名为WEBRL的在线强化学习系统,专门来解决训练任务不足、反馈信号稀少等问题。

通过加入自适应学习策略,AutoGLM能够在使用过程中不断进化,持续提高自己的表现和效率。

也正是这种不断自我改进的能力,使得AutoGLM变得越来越聪明,越来越能贴近人类的需求。

智谱,领跑了“AI新赛季”

有一说一,仅仅是通过APP可以实现这一点上,智谱的这步棋下得称得上是较为超前的。

毕竟在前两天Claude发布Computer Use的时候,很多人就表示AI竞赛已经来到了新赛季

图片

这也与当下大模型技术发展的趋势相契合——

一言蔽之,就是成熟的AI,应该学习自己做事儿了。

早在去年开始,大模型的圈子里就开始盛行大语言模型(LLM)的“进化体”——大型动作模型(LAM,Large Action Model)

其核心也是希望能够摆脱目前大模型只能做生成任务的禁锢,能够借各种AI硬件作为载体,向执行层面去过渡。

无独有偶,在AI PCAI手机圈子里,各大玩家也是把眼光都聚焦到了这种新范式,包括联想荣耀等等。

其模式也是通过文字或语音,把任务交给端侧原生的AI,让它们能够自行处理任务。

而且不仅是端侧的AI硬件厂商在跟进,就连底层的算力玩家也在做着适配。

例如前两天高通就为此宣布直接把桌面级的CPU塞进了手机里面。

不过仅仅是通过一个软件,更是只通过语音就能让AI在手机上实现像人一样全自动地操作,智谱可以说是在这个赛季玩家中的首个。

而作为国内少数能够跟OpenAI全面对标的大模型玩家,智谱能够做到这点其实也并不意外。

图片

从早期的技术路线的发展来看,智谱面对OpenAI这个毋庸置疑的全球大模型头部选手,它的选择是做一个“追赶者”。

从纯文本对话,到文生图、代码、搜索、视觉,再到今年的文生视频、超拟人语音等多模态。

虽然从各种产品和模态上几乎可以不落的和OpenAI逐一连线,但其实智谱从起点来看,在最根儿上的技术本质却截然不同——

OpenAI的GPT系列则主要使用自回归模型,这种模型在生成文本时是单向的,即它只能基于之前的词来预测下一个词。

但这种单向性可能限制了模型在某些自然语言理解(NLU)任务中的表现,因为它无法充分捕捉上下文之间的依赖关系。

而智谱的GLM采用了自回归填空(autoregressive blank infilling)作为主要的预训练目标。这种方法允许模型在生成文本时同时考虑上下文信息,从而增强对语言结构的理解和生成能力。

不仅如此,在生态方面,二者也有明显的不同。

例如众所周知的,OpenAI一直在坚持闭源的形式;而智谱则是闭源和开源两头抓,截至目前,其开源的模型如下表所示:

图片

而不仅是这一次AutoGLM做到了抢先,智谱在八月也抢先OpenAI把类似4o的AI视频通话上线到了清言APP中;并且就在刚刚,其背后的GLM-4-Voice也正式开源。

00:37 / 02:33

视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ

由此,若是把上述的各个节点连起来,放到时间的X轴里,智谱的技术发展路线就一目了然了——正在一步一步迈近AGI

图片

若是按照自动驾驶领域“L几”的说法,在智谱看来,迈向AGI,一共分为L1-L5:

图片

其中,L1语言能力、L2逻辑与思维能力和L3工具能力,是目前业内比较有共识的三个AI级别。

但在在L4和L5上,智谱和OpenAI还有一些区别。

在智谱看来,L4级人工智能意味着AI可以实现自我学习、自我反思和自我改进

L5则意味着人工智能全面超越人类,具备探究科学规律、世界起源等终极问题的能力。

但人工智能多大程度上能够做到像人脑一样,甚至超越它呢?

对于这个问题,智谱认为我们大致也将在未来相当长的一段时间处于42%这个阶段。

(42 这个百分比灵感来自《银河系漫游指南》,the journey to AGI is now 42% completed,是小说里名叫“深思”(Deep Thought)的超级电脑,经过750万年的计算,给出的关于生命、宇宙以及任何事情的终极答案。)

大脑是一个非常复杂的系统,包括听觉、视觉、味觉、语言等多模态的感知与理解能力,有短期和长期记忆能力,深度思考和推理能力,以及情感和想象力。

另外,作为人身体的指挥器官,大脑还懂得调动身体的各个部分协同运转,使用各种工具。

正如下面这张图上显示的,有些能力今天的大模型已经解锁,比如文本,视觉,声音,比如一定的逻辑和使用工具的能力,有些模态的能力树还没有点亮,这些也是智谱未来会一直为之努力的方向。

图片

数年前智谱CEO张鹏就曾说过这么一句话:

不做,不追,你永远不知道你能跑多快,跑多远。

现如今回头来看,对于当年“能跑多远”的期待,已然是有了明确的结果——

做了,追了,智谱已经开始跑在了OpenAI的前面。

最后,附上这次智谱新功能的入口。

AutoGLM浏览器插件地址:
https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_lzw

AutoGLM安卓内测地址:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh