谷歌Gemini 2.0 ：超越AI Agent |AI新大陆

CyberDaily

2024-12-12 18:07发布于广东科技领域创作者

全文1445字，阅读约需5分钟，帮我划重点

划重点

01谷歌发布了Gemini 2.0，专为AI Agent设计，支持多模态输入和输出，包括图像、视频、音频等。

02Gemini 2.0具有空间推理功能，可构建物理世界的代理，操控人形机器人执行任务。

03除此之外，谷歌还探索了AI代理在实际应用中的潜力，如Project Astra、Project Mariner和Jules等。

04未来，更多Agentic AI有望进入物理世界的载体中，如汽车、桌面AI机器人等。

以上内容由腾讯混元大模型生成，仅供参考

封面：Gemin2.0的机器人代理，让人形机器人叠积木

CyberDaily：

AI真正走出洞穴

OpenAI连续12天的直播新品发布，谷歌也不落下，有狙击之感，马斯克的Grok则默默全量免费试用，可以生成Optimus、Cybertruck的各种memes。

Google 发布的Gemini2.0值得关注，一是它不仅是为明年的AI Agent应用而设计的多模态大模型，另外，我们认为最重要的是它可以理解和推理物理世界，构建代理，操控你的人形机器人执行任务。

先看Gemini2.0：谷歌AI Agent的基底

今年的AI Agent有一种小试牛刀的感觉，并将去年AutoGPT的遗志继承了下来。各家厂商减缓训练大语言模型，转而向执行层的训练，一种从认知主义到行为主义的转变。简而言之，就是要让LLMs可以自主做事情，而不是生成建议，投射柏拉图洞穴的影子，人类需要它更多接入现实世界里。

Gemini2.0则是为专为AI Agent而设计，支持图像、视频、音频等多模态输入，以及原生生成图像与文本混合、多语言音频的多模态输出；并能够原生调用Google搜索、代码执行以及第三方用户定义函数等工具。Gemini 2.0 Flash已向开发者和可信测试者开放，预计明年初向更广泛的用户开放。现在可以免费用到不亚于OpenAI o1模型性能的AI。

而谷歌则已经探索了一些AI代理的实际应用，包括Project Astra（通用AI助手）、Project Mariner（浏览器中的人类-代理交互）和Jules（AI驱动的代码代理），包括游戏代理...可看下面的视频：

可以在Google AI studio上体验Gemini 2.0 Flash。作为AI Agent而生的多模态大模型，可以看到明年开发者们将通过其来开发各种各样的Agentic AI，这是一个爆发的前夜。

Gemini 2.0 可以操控人形机器人执行任务

这在谷歌发布Gemini 2.0 的博客里一笔带过，但我们认为是最重要的潜在应用。博客中提到，除了探索虚拟世界中的代理功能外，我们还在试验可以通过将 Gemini 2.0 的空间推理功能应用于机器人技术来在物理世界中提供帮助的代理。虽然现在还为时过早，但我们对可以在物理环境中提供帮助的代理的潜力感到兴奋。

具体可看，基于Gemini 2.0 的空间推理功能，可以构建用在人形机器人的代理，只需与该Agentic AI对话：Okay,let's Jenga move.人形机器人就能用其灵巧手叠积木的任务。这与现在的AI Agent有所不同，它们主要让AI自主操作手机、电脑上的程序进行任务执行，比如购物、浏览网页总结分析等，本质上，依然还未走出洞穴。

与此同时，Gemini 2.0通过构建物理世界的代理，借助人形机器人来实现真正进入现实世界，并可以感知、理解、执行、互动和反馈等等。

意味着Gemini 2.0未来也可以通过人形机器人载体（视觉、触觉、味觉（Meta已经在用机械手捕捉物体味觉）六维力矩等多种传感、以及双手）采集丰富的现实数据，以来增强其空间物理智能，达到真正理解物理世界的能力，使之可以构建所谓的世界模型，而不再困于LLMs的多模态大模型的局限——这也是1X正极力构建的。

同时，Gemini 2.0的机器人代理也可以帮助人形机器人厂商训练自家人形机器人，成为一种低成本、实时训练的方案。

Google Deepmind 的一位机器人工程师提到，将会有更多内容分享出来。

可以预想，未来更多Agentic AI可以进入物理世界的载体中，甚至可能可以操控汽车、桌面AI机器人等，比如苹果的智能机器人。

引用资料：https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents

-未来已来，只是分布不均匀-

查看原图 208K