划重点
01近期AI行业竞争激烈,各大模型公司纷纷推出多模态能力、操作界面和代理执行方面的创新。
02OpenAI和Google在多模态能力上推销自己的技术,国内的大模型如豆包、智谱、Kimi、通义等也在朝这个方向努力。
03除此之外,AI原生操作界面正在初露端倪,如OpenAI的Canvas和Sora展示的AI视频操作界面。
04大模型向应用方向拓展,需要具备打通不同场景、终端和应用的执行能力,智能体成为理想载体。
05未来一年,我们应该能看到更多类似的AI原生操作界面的尝试,以让大模型在更多场景、行业和人群中发挥作用。
以上内容由腾讯混元大模型生成,仅供参考
小纪有话说:
本文经授权转载自公众号「窄播」
作者 | 李威(北京)
OpenAI和Google的发布内容中,多模态都是一个重要的组成部分。即便不从AGI的角度去理解,一个具备看、听、说等多种感知能力的大模型,也能被看作具备了更接近人的自然交互习惯的能力,就像人形机器人被认为是能够最大程度适应人类社会的工作环境一样。
o1大模型引入多模态处理能力的同时,OpenAI终于发布了GPT-4o的高级语音模式。在这个模式下,一场更顺畅自然的人机互动成为了现实。在高级语音模式下,四位OpenAI的工作人员流畅地与AI交谈,AI能够通过摄像头分辨出他们中谁戴着圣诞帽,并一边「看」,一边指导其中一位员工做手冲咖啡。
ChatGPT指导制作手冲咖啡
Google发布的Gemini 2.0也增强了其智能体Project Astra的多模态交互能力。Google在今年5月举办的I/O大会上推出了Project Astra,它能够借助手机摄像头观察理解现实环境,解答用户的相关问题。这次升级之后,Project Astra可以在多种语言之间进行自然对话,并拥有图形记忆能力和对话记忆能力。
其中,图形记忆能力可以让其记住最近10分钟内看到的图像,对话记忆能力则可以储存和调用60段历史对话。在一个演示中,一名Google员工让Project Astra看到一辆驶过的公交车,并向它询问这辆公交车能否带自己去往唐人街附近。当然也有展示Project Astra对不同口音和生僻词汇的理解能力。
当我们看到这些能力演示的时候,一定能够想到如果智能眼镜上有了这种能力,是否会带来更棒的使用体验?
如果说多模态大模型最终指向的是一个类人的、无处不在的精明助理,那AI硬件一定会是它的核心载体。大模型多模态能力的提升,有可能会让拥有看、听、说能力的智能眼镜站上更大的风口。
作为AI硬件的主要品类,我们在国内已经看到了众多智能眼镜产品的诞生,包括百度推出了小度AI眼镜,Rokid与BOLON推出了Rokid glasses,李未可的Meta Lens Chat,蜂巢科技的界环AI音频眼镜,以及被认为会做智能眼镜的字节、小米、华为等大厂。
虽然不清楚OpenAI的想法,但从Ray-Ban Meta已经搭载AI能力,和Google的一些表态上,可以看到大模型与AI硬件更深度融合的时间点正在到来。Google的工作人员表示,「一小部分人将通过原型眼镜测试 Project Astra,我们认为这是体验此类AI最强大、最直观的方式之一。」
在国内,大模型与硬件的结合也已经成为一门显学。致力于端侧AI发展的面壁智能在近期完成了新一轮数亿元融资,其CEO李大海在内部信中表示:「因为端侧智能发展的深刻影响,主流消费电子和新兴硬件正演变成一个个在不同场景、执行特定任务的超级智能体,成为新一轮科技创业大风口。」
执行能力的提升则是这一波大模型产品能力提升的另一个方向。大模型向应用方向进行拓展,必然需要具备打通不同场景、终端和应用的执行能力。而智能体则是目前公认的能够实现这种打通的理想载体。
在最近的大模型产品发布中,我们明显能够感觉到,OpenAI和Google正在给智能体生态打造更多建设工具。
OpenAI在GPT-4o的高级语音模式中展示了一项屏幕共享能力。在开启屏幕共享之后,ChatGPT能够浏览用户的短信,并给出回复建议。这很难不让人联想到智谱和Anthropic推出的AutoGLM和computer use能力。观看和理解屏幕上显示的内容,是让大模型学会操作App的基础。
ChatGPT浏览短信
也是近期,ChatGPT正式接入到苹果的系统中。特定英语地区的苹果用户已经可以在iPhone、iPad和Mac上直接体验ChatGPT的功能。这是一种混合方案,当Siri觉得用户提出的问题更适合让ChatGPT来回答时,系统会请求用户同意访问OpenAI服务。未来,OpenAI未尝不会与Apple Intelligence做更深度的融合。
Google则直接将Gemini 2.0定义成一个面向智能体时代的AI模型,其多模态能力和调用工具的能力都能够支撑构建AI智能体。在Google展示的一些智能体中,有的可以根据屏幕上的画面,实时分析游戏情况,并向用户提出操作建议,还有的能进行深度研究和论文撰写。
Project Mariner也是基于Gemini 2.0的能力实现的。这也是之前大家所传的与AutoGLM和computer use类似的产品。在Google的介绍中,这个产品能理解网页上的复杂信息,并调用Chrome浏览器的扩展程序,帮助用户完成复杂任务。与AutoGLM和computer use一样,该产品也能帮助用户执行键入、单击等动作。
OpenAI与Google之外,亚马逊也在近期宣布建立了自己的Amazon AGI SF Lab。据介绍,这个实验室由AI初创公司Adept联合创始人David Luan领导,其核心目标直指打造能在数字和物理世界中「采取行动」的AI智能体,并能处理跨越计算机、网络浏览器和代码解释器的复杂工作流程。
很明显,对于大模型厂商来说,明年的大模型产品一定会在标配多模态能力的基础上,让自己拥有更多可影响物理世界的执行能力。而这些执行能力的推出,一方面会继续带动手机、PC、汽车等传统硬件领域的AI化探索,另一方面,也有可能让更多大厂和开发者找到新的思路,对原有产品的体验进行自动化的局部改造和升级探索。
AI原生的操作界面正在诞生
近期大模型产品发布的第三个变化是AI原生的操作界面正在初露端倪。特别是在OpenAI已经进行的发布中,Sora和Canvas两天的发布给人印象最深刻的都是对AI原生操作界面的探索。一定会有人从中得到启发,去思考应该用一种什么样的操作界面,来实现原有体验的AI化。
这会是未来一段时间内的探索方向。就像智能手机出现之后,游戏厂商如何去探索一个更适合触摸屏交互的操作界面一样,在大模型越来越深度地介入应用场景之后,需要有一个围绕自然语言搭建的操作界面。我们目前看到的在生成视频时进行的参数选择,并不是面向未来的操作界面。
对话窗口可能是一种形态,但不足以支撑多元的信息形态。这也是为什么,OpenAI会推出Canvas作为对话窗口的补充。Canvas事实上提供了一个人与AI交流的「桌面」,大家在聊天的同时,可以把自己手头的文字、视频、数据放在桌面上,一同观看和处理。
Canvas界面
OpenAI在11月推出的ChatGPT桌面应用能够在Mac上实现与第三方应用的协作,将第三方应用中的内容引入到用户与ChatGPT的对话中。有科技博主利用这个功能,让ChatGPT「看」到了Terminal中打开的字幕文件,并生成了能够将其转换为纯文本文件的命令。
这种协作,形象点说,就是在将Terminal等软件中的数据、信息摆放到桌面上,让AI也能看到。然后AI能够根据自己看到的200行信息,更精准地理解用户在对话中表述的意图。当然,Canvas的预览功能,也是对这种桌面能力的补充,相当于把一个木制的桌面,变成了一个智能的显示屏。
OpenAI在第七天发布的Projects功能,则是为桌面打造的文件柜,可以将同一个项目的聊天记录、文件和自定义指令集中在一起,实现更精细化的资料管理。Projects让用户能够更轻松在ChatGPT上打造自己的工作台。甚至,这个Projects未来可能会集成更多人和智能体,成为一个协作空间。
Storyboard
同理,尽管大家对Sora的视频生成能力褒贬不一,但对Sora展示出的AI视频操作界面都给出了比较高的评价。Sora既提供了一些模版化的工具插件,比如可以替换视频元素的Remix工具,可以拓展最佳帧的Re-cut工具,可以生成重复视频的Loop工具;又推出了Storyboard,一个拥有时间轴的视频编辑工具。
未来一年我们应该能看到更多类似的AI原生操作界面的尝试。这是一种从AI生成能力向AI创作能力延伸的必然。从更大的视角来看,大模型也到了让更多场景、更多行业、更多人感知到和使用起来的阶段了。只有这样,才能维持住大家对大模型的信心,让大模型发挥应有的价值,抵消一部分质疑的声音。