金磊 发自 凹非寺
量子位 | 公众号 QbitAI
继Claude发布Computer Use惊艳全场,就在刚刚,一个国产AI实现了像人一样使用手机!
而且还不像Claude需要打字提需求,现在手机的“手”是可以稍微去掉一些了,因为光靠嘴说就可以实现很多功能。
例如给微信朋友圈点赞+评论,现在只需对着手机说一句:
帮我打开微信,给老板的第一条朋友圈点赞,并写一条评论,内容是“风景真的很漂亮”。
然后啊,AI就“唰唰唰”地自己开始动手:
△本文视频除提示外,所有操作均由AI执行
不难看出,在给这个AI下达命令之后,它自己就可以执行如下步骤:
打开微信 → 搜索人 → 进入对话框 → 点击头像 → 点开朋友圈 → 找到一条内容 → 点赞 → 评论。
而中间几个关键且较为敏感的步骤,AI还会提醒是否还要“继续执行”,也是避免了一些乌龙的发生。
如此一来啊,我们就可以一定程度地解放双手,把中间繁琐的过程都交给AI来处理。
除此之外,像给老板发微信请假,也是可以用说的:
帮我给老板发个微信,生成一段内容,表达一下我发烧很严重,今天想请假。
视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
可以看到,这个AI不止是简单的请假,而是晓之以理动之以情地帮我生成了一段文字。
并且内容也称得上是教科书般的请假了。
那么这个国产AI到底是什么来头?
不卖关子,它正是智谱刚刚上新的功能——AutoGLM,主打一个让你的手机变成“自动驾驶”模式。
但说到最直观的感受,那就是火爆已久的生成式AI,已经不再停留在简单的生成阶段,而是真真儿地开始深入到硬件替人做执行和操作。
不过在我们深度体验一番之后发现,发微信、朋友圈点赞,还仅仅是AutoGLM能力的一隅。
导航、点外卖,AI都可以替你操作
还是先顺着微信,AutoGLM还可以对公众号的文章做总结。
例如我们用语音提个需求:
帮我看下量子位最近有没有关于GPU相关的文章并做总结。
视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
从演示中我们也能看到,如果AutoGLM在转文字时出现了错误,我们也是可以手动进行修改。
并且即便不是特别具体的要求,例如“最近三篇文章写了什么”这样比较泛的问题,AutoGLM也是可以hold住的。
但除了微信之外,其实AutoGLM已经深入到了手机上与我们“衣食住行”相关的各个角落。
点外卖,可以用说的
接下来,我们尝试让AutoGLM点外卖,看看它是否能够hold住:
帮我在美团上点一杯瑞幸咖啡的茉莉花香拿铁。
视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
也是只需要一句话,AutoGLM就自动在手机上执行了如下的操作:
打开美团APP → 搜索“瑞幸咖啡” → 选择最近的店铺 → 搜索“茉莉花香拿铁” → 点击“去结算”。
期间,在口味的选择这个步骤中,也是可以通过语音的方式和AutoGLM沟通。
如此一来,以后点外卖就变成“口头和AI交流”+“手动支付”一下了。
购物,也是可以用说的
和点外卖类似,现在AutoGLM加持下的手机,也可以用说话的方式来购物。
例如我们想回购一件商品,可以提出这样的要求:
我上个月在淘宝买过一副眼镜,帮我再回购一次。
视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
AutoGLM在了解意图之后,精准的在历史订单里的“近一个月”范围内找到了买过的眼镜,然后用户只需要操作一下支付即可。
当然,像搜索特定牌子的衣服之类的需求,AutoGLM也是可以轻松拿捏。
订车票、酒店,一句话搞定
在“衣”和“食”之后,我们继续来测试一下AutoGLM在“住”和“行”方面的能力。
例如在携程上订酒店:
帮我在携程上订10月25号到30号,环球影城附近评分最高的酒店。
视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
定位、选日期、按评分排序、订酒店……直到付款前,AutoGLM在操作上可以说是一气呵成。
再如在12306上订车票:
帮我在12306上订一下明天上午,从上海出发到北京的高铁票。
视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
由此可见,手机加持了AutoGLM之后,“衣食住行”的交互方式直接迈进自动驾驶模型。
而且除了刚才我们展示的功能之外,AutoGLM目前还支持大众点评、小红书、高德地图等APP哦~
不过有一说一,说到Auto这件事儿,智谱除了在手机上发力之外,早在电脑端的网页上就已经展现出来了。
电脑网页也可以变得很Auto
智谱让网页变得Auto的工具,便是它推出的插件——清言。
或许很多小伙伴会说,不会又想说网页总结、划词、写作助手、翻译、问答这些功能吧?
确实,清言插件的确包含了这些现在AI插件似乎都应该具备的基本功能,但这仅仅是在清言的“通用模式”。
但如果点开旁边的“高级模式”,那么玩法就截然不同了。
例如在小红书的网站要找某些攻略,我们可以不用再挨个帖子看内容、“货比三家”的来找了。
只需要在清言插件的高级模式中,给一个提出需求的动作即可,AI会自动帮你筛选并找到最优解。
举个例子,我们在清言中点击“站内高级检索”,并输入:
北京最近一个月最火的旅游攻略。
视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
从整个过程来看,在发送需求之后,我们就不需要做任何事情了。
清言也会像AutoGLM一样,自动执行一系列步骤:
输入搜索信息“北京旅游攻略”
判定筛选条件为“最新+最热”,即“综合”
更改搜索信息为“北京旅游攻略10月份”
挨个打开Top 5的内容,并对图片和文字做识别
给出最终总结内容
嗯,确实是节省了亲自做比较+思考的时间。
而这个“站内高级检索”若是放在知网这样的平台,那么对学生党和科研当来说,简直就是大写的方便:
检索2024年大语言模型相关的期刊论文。
同样的,整个搜索、筛选到最终给出结果的过程中,完全无需人为干预,清言上演全自动模型。
当然,若是对AI整理的内容还是不够满意,清言还提供一种“人机结合”的模式——量子速度。
点击这个模式之后,就会在网页各个细分条目后出现一个选择框,我们可以pick自己重点或更倾向的内容,然后再交给清言做处理:
视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
据了解,电脑网页中的这种自动驾驶模式,目前清言已经支持了小红书、知网和知乎。
那么接下来的一个问题就是:
如何做到的?
从我们实测的所有案例中不难看出,智谱的AutoGLM,其实是把AI从“语言”阶段,拉高到了“执行”的层面。
AutoGLM不再仅仅是回答问题的AI,而是可以理解我们的指令,并模拟人类操作各种应用场景。
正如我们展示的它能帮我们读网页、在电商平台购物、订酒店、点赞朋友圈、发微信等等,让AI变成助手这件事儿真正能付诸于行动。
究其背后的技术核心,主要就是AutoGLM的智能体能力了。
与传统的只会简单API调用的AI不同,AutoGLM能理解屏幕上的信息,自动规划任务,并在执行过程中根据实际情况自我判断和调整。
用户只需通过简单的语言指令,就可以让它完成复杂的操作,这种能力背后的支撑来自于它强大的任务规划和执行机制。
这就与Apple Intelligence等市面上主流的传统AI智能体拉开了差距。
(PS:昨天苹果刚发布的iOS第二波AI能力,依旧停留在生成阶段。)
再具体到更细节的技术,AutoGLM背后的自进化学习框架也非常值得一提。
智谱为此开发了一个名为WEBRL的在线强化学习系统,专门来解决训练任务不足、反馈信号稀少等问题。
通过加入自适应学习策略,AutoGLM能够在使用过程中不断进化,持续提高自己的表现和效率。
也正是这种不断自我改进的能力,使得AutoGLM变得越来越聪明,越来越能贴近人类的需求。
智谱,领跑了“AI新赛季”
有一说一,仅仅是通过APP可以实现这一点上,智谱的这步棋下得称得上是较为超前的。
毕竟在前两天Claude发布Computer Use的时候,很多人就表示AI竞赛已经来到了新赛季。
这也与当下大模型技术发展的趋势相契合——
一言蔽之,就是成熟的AI,应该学习自己做事儿了。
早在去年开始,大模型的圈子里就开始盛行大语言模型(LLM)的“进化体”——大型动作模型(LAM,Large Action Model)。
其核心也是希望能够摆脱目前大模型只能做生成任务的禁锢,能够借各种AI硬件作为载体,向执行层面去过渡。
无独有偶,在AI PC和AI手机圈子里,各大玩家也是把眼光都聚焦到了这种新范式,包括联想、荣耀等等。
其模式也是通过文字或语音,把任务交给端侧原生的AI,让它们能够自行处理任务。
而且不仅是端侧的AI硬件厂商在跟进,就连底层的算力玩家也在做着适配。
例如前两天高通就为此宣布直接把桌面级的CPU塞进了手机里面。
不过仅仅是通过一个软件,更是只通过语音就能让AI在手机上实现像人一样全自动地操作,智谱可以说是在这个赛季玩家中的首个。
而作为国内少数能够跟OpenAI全面对标的大模型玩家,智谱能够做到这点其实也并不意外。
从早期的技术路线的发展来看,智谱面对OpenAI这个毋庸置疑的全球大模型头部选手,它的选择是做一个“追赶者”。
从纯文本对话,到文生图、代码、搜索、视觉,再到今年的文生视频、超拟人语音等多模态。
虽然从各种产品和模态上几乎可以不落的和OpenAI逐一连线,但其实智谱从起点来看,在最根儿上的技术本质却截然不同——
OpenAI的GPT系列则主要使用自回归模型,这种模型在生成文本时是单向的,即它只能基于之前的词来预测下一个词。
但这种单向性可能限制了模型在某些自然语言理解(NLU)任务中的表现,因为它无法充分捕捉上下文之间的依赖关系。
而智谱的GLM采用了自回归填空(autoregressive blank infilling)作为主要的预训练目标。这种方法允许模型在生成文本时同时考虑上下文信息,从而增强对语言结构的理解和生成能力。
不仅如此,在生态方面,二者也有明显的不同。
例如众所周知的,OpenAI一直在坚持闭源的形式;而智谱则是闭源和开源两头抓,截至目前,其开源的模型如下表所示:
而不仅是这一次AutoGLM做到了抢先,智谱在八月也抢先OpenAI把类似4o的AI视频通话上线到了清言APP中;并且就在刚刚,其背后的GLM-4-Voice也正式开源。
视频地址:https://mp.weixin.qq.com/s/vP3ebxZ5-gewGXbIDJHCVQ
由此,若是把上述的各个节点连起来,放到时间的X轴里,智谱的技术发展路线就一目了然了——正在一步一步迈近AGI:
若是按照自动驾驶领域“L几”的说法,在智谱看来,迈向AGI,一共分为L1-L5:
其中,L1语言能力、L2逻辑与思维能力和L3工具能力,是目前业内比较有共识的三个AI级别。
但在在L4和L5上,智谱和OpenAI还有一些区别。
在智谱看来,L4级人工智能意味着AI可以实现自我学习、自我反思和自我改进。
L5则意味着人工智能全面超越人类,具备探究科学规律、世界起源等终极问题的能力。
但人工智能多大程度上能够做到像人脑一样,甚至超越它呢?
对于这个问题,智谱认为我们大致也将在未来相当长的一段时间处于42%这个阶段。
(42 这个百分比灵感来自《银河系漫游指南》,the journey to AGI is now 42% completed,是小说里名叫“深思”(Deep Thought)的超级电脑,经过750万年的计算,给出的关于生命、宇宙以及任何事情的终极答案。)
大脑是一个非常复杂的系统,包括听觉、视觉、味觉、语言等多模态的感知与理解能力,有短期和长期记忆能力,深度思考和推理能力,以及情感和想象力。
另外,作为人身体的指挥器官,大脑还懂得调动身体的各个部分协同运转,使用各种工具。
正如下面这张图上显示的,有些能力今天的大模型已经解锁,比如文本,视觉,声音,比如一定的逻辑和使用工具的能力,有些模态的能力树还没有点亮,这些也是智谱未来会一直为之努力的方向。
数年前智谱CEO张鹏就曾说过这么一句话:
不做,不追,你永远不知道你能跑多快,跑多远。
现如今回头来看,对于当年“能跑多远”的期待,已然是有了明确的结果——
做了,追了,智谱已经开始跑在了OpenAI的前面。
最后,附上这次智谱新功能的入口。
AutoGLM浏览器插件地址:
https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_lzw
AutoGLM安卓内测地址:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh