谷歌Gemini 2.0 :超越AI Agent |AI新大陆

全文1445字,阅读约需5分钟,帮我划重点

划重点

01谷歌发布了Gemini 2.0,专为AI Agent设计,支持多模态输入和输出,包括图像、视频、音频等。

02Gemini 2.0具有空间推理功能,可构建物理世界的代理,操控人形机器人执行任务。

03除此之外,谷歌还探索了AI代理在实际应用中的潜力,如Project Astra、Project Mariner和Jules等。

04未来,更多Agentic AI有望进入物理世界的载体中,如汽车、桌面AI机器人等。

以上内容由腾讯混元大模型生成,仅供参考

图片


封面:Gemin2.0的机器人代理,让人形机器人叠积木

CyberDaily

AI真正走出洞穴


OpenAI连续12天的直播新品发布,谷歌也不落下,有狙击之感,马斯克的Grok则默默全量免费试用,可以生成Optimus、Cybertruck的各种memes。
图片

Google 发布的Gemini2.0值得关注,一是它不仅是为明年的AI Agent应用而设计的多模态大模型,另外,我们认为最重要的是它可以理解和推理物理世界,构建代理,操控你的人形机器人执行任务。

先看Gemini2.0:谷歌AI Agent的基底
今年的AI Agent有一种小试牛刀的感觉,并将去年AutoGPT的遗志继承了下来。各家厂商减缓训练大语言模型,转而向执行层的训练,一种从认知主义到行为主义的转变。简而言之,就是要让LLMs可以自主做事情,而不是生成建议,投射柏拉图洞穴的影子,人类需要它更多接入现实世界里。
Gemini2.0则是为专为AI Agent而设计,支持图像、视频、音频等多模态输入,以及原生生成图像与文本混合、多语言音频的多模态输出;并能够原生调用Google搜索、代码执行以及第三方用户定义函数等工具。Gemini 2.0 Flash已向开发者和可信测试者开放,预计明年初向更广泛的用户开放。现在可以免费用到不亚于OpenAI o1模型性能的AI。
而谷歌则已经探索了一些AI代理的实际应用,包括Project Astra(通用AI助手)、Project Mariner(浏览器中的人类-代理交互)和Jules(AI驱动的代码代理),包括游戏代理...可看下面的视频:
可以在Google AI studio上体验Gemini 2.0 Flash。作为AI Agent而生的多模态大模型,可以看到明年开发者们将通过其来开发各种各样的Agentic AI,这是一个爆发的前夜。

Gemini 2.0 可以操控人形机器人执行任务
这在谷歌发布Gemini 2.0 的博客里一笔带过,但我们认为是最重要的潜在应用。博客中提到,除了探索虚拟世界中的代理功能外,我们还在试验可以通过将 Gemini 2.0 的空间推理功能应用于机器人技术来在物理世界中提供帮助的代理。虽然现在还为时过早,但我们对可以在物理环境中提供帮助的代理的潜力感到兴奋。
图片


具体可看,基于Gemini 2.0 的空间推理功能,可以构建用在人形机器人的代理,只需与该Agentic AI对话:Okay,let's Jenga move.人形机器人就能用其灵巧手叠积木的任务。这与现在的AI Agent有所不同,它们主要让AI自主操作手机、电脑上的程序进行任务执行,比如购物、浏览网页总结分析等,本质上,依然还未走出洞穴。


与此同时,Gemini 2.0通过构建物理世界的代理,借助人形机器人来实现真正进入现实世界,并可以感知、理解、执行、互动和反馈等等。
图片


意味着Gemini 2.0未来也可以通过人形机器人载体(视觉、触觉、味觉(Meta已经在用机械手捕捉物体味觉)六维力矩等多种传感、以及双手)采集丰富的现实数据,以来增强其空间物理智能,达到真正理解物理世界的能力,使之可以构建所谓的世界模型,而不再困于LLMs的多模态大模型的局限——这也是1X正极力构建的
同时,Gemini 2.0的机器人代理也可以帮助人形机器人厂商训练自家人形机器人,成为一种低成本、实时训练的方案。
Google Deepmind 的一位机器人工程师提到,将会有更多内容分享出来。
图片

可以预想,未来更多Agentic AI可以进入物理世界的载体中,甚至可能可以操控汽车、桌面AI机器人等,比如苹果的智能机器人
引用资料:https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents



-未来已来,只是分布不均匀-