中国团队Manus智能体崛起,评分力压OpenAI Deep Research!

一觉醒来,Manus就在我的朋友圈给刷爆了。这个中国团队最新发布的智能体Agent,在官网中宣称其能力超越了OpenAI的Deep Research。


可以看到,Manus在GAIA上进行评测的结果,取得的分数很高。数值越高代表表现越好;纵轴则依次列出了三个难度等级。

图片


GAIA 是一个专为通用人工智能助手设计的基准数据集,主要用来评估 AI 系统在推理、多模态处理、网络浏览和工具使用等基本能力。这个数据集是由Meta、HuggingFace 和 AutoGPT 等组织于 2024 年联合推出,共包含了 466个问题和其答案。


  • 入门级(Level 1)难度上,Manus的表现大幅优于OpenAI Deep Research,达到了最高的86.5%

  • 在中等难度(Level 2)上,Manus依然略高于 OpenAI Deep Research,其通过率约为 70.1%

  • 在最高难度(Level 3)上,Manus同样保持第一,比OpenAI的通过率高了10%


评测只是一方面,那么它实际能干什么呢?从官方放出的例子可以看到,它好像“无所不能”。


从旅行规划、股票分析、供应商采购、财务报告分析等等,都能够给你提供专业的意见。


就比如,如果你想要一份“特斯拉”股票分析详细数据,它能够对你的问题进行有效分析,然后获取网页上的特斯拉数据



最后,他会分析完数据之后,生成一个网页投资建议:

图片


打开之后可以看到很详细的分析报告数据:

图片


虽然其测试性能上很强,但是实际运用效果怎么样,还需要更多用户进行测试。但是像这种Agent,本质上还是要依赖于大模型的能力,尤其是在理解复杂指令、多模态融合、推理决策等方面,其表现高度依赖于基础大模型的预训练质量和上下文适应能力。因此,其调用大模型能力越强,相应的Agent的能力也会越强。


就比如最近发布的Claude 3.7 Sonnet,也表现出了很强的编码、数学等推理能力,这些说白了本质上也可以看作是一个简单的Agent。

图片


所以我们应该更多的关注于大模型能力的提升,Agent这类依赖于大模型能力的应用,其天然就会被更强的大模型所替代。因此,长期来看,Agent 并不是一个独立的技术方向,而是大模型能力演进的附属产物。


随着基础模型的不断升级,现有的 Agent 可能会被更强大的模型直接取代,而无需额外构建复杂的调度与管理机制。这意味着,与其过度优化当前的 Agent 方案,不如将研发重点放在提升大模型的推理能力、上下文理解能力和任务执行能力上,让大模型自身具备更强的自主决策与任务处理能力,从而自然演化出更高效的智能体。