为什么Manus火了

AI划重点 · 全文约2863字,阅读需9分钟

1.中国团队开发的通用AI Agent产品Manus在短时间内刷屏,受到众多赞誉。

2.Manus在GAIA评测中超越OpenAI的DeepResearch,成为通用AI助手领域的领导者。

3.除此之外,Manus具备执行复杂任务的能力,如简历筛选、选房和炒股等。

4.目前,Manus仅对少部分内测用户可用,后续表现仍需关注。

5.作为一款国产AI产品,Manus的发布被视为中国AI崛起的新里程碑。

以上内容由腾讯混元大模型生成,仅供参考

上周末,脖子突然抽筋坏了,比落枕难受100倍。所以停更了几天。做了CT,做了核磁,开了膏药,也开了口服药,这两天能动弹了。

一夜之间,被“中国团队做的通用 AI Agent 产品”——Manus刷屏了。

不少声音都在说“AI Agent 的 GPT 时刻”、“中国 AI 再次震惊世界”、“又一个 DeepSeek”,总之各种溢美之词扑面而来,帽子又高又帅!

Agent——

现在这个时刻,已经是一个说烂的词儿了,从 22 年底 ChatGPT 发布后的几个月开始,尤其是 AutoGPT(Agent 概念开始“火”起来的关键节点)火了之后,到现在一直没停过讨论。

那为啥这次 Manus 就火了呢?

这篇文章仅从我个人理解角度上,浅谈一下。

整体我觉得可以概括成三点:

1、是对 OpenAI 的贴身超越

2、是一次技术突破的集中爆发

3、与用户心理的精准共振

先看一个官方的 demo 视频——

任务是:Research the Rockefeller family relationships(研究洛克菲勒家族关系)

一段操作猛如虎,中间各种分析、整理、执行,最后生成了家族图谱。

首先看官方发布的榜单——

图片

在衡量通用 AI 助手能力的基准 GAIA 评测中,Manus 的评分遥遥领先,超越了 OpenAI 的 DeepResearch,稳坐第一。

GAIA 基准由 Meta AI (FAIR)、Hugging Face 团队在 2023 年联合推出的,旨在评估 AI 助手解决实际问题的能力。研究团队提出了一系列问题,这些问题“对于人类来说在概念上很简单,但对于最先进的人工智能来说却具有挑战性”,共包含 466 个需要多步骤推理的复杂问题,分为 Lv.1、Lv.2、Lv.3 三个难度级别。人类在 GAIA 测试中的平均正确率高达92%,GPT-4 在 GAIA 测试中的综合正确率仅为15%,且在最高难度级别(Lv.3)的问题上表现更差,部分得分甚至为零。直到有了推理模型 +Deep Research 后,才拿下当时的 SOTA。

看榜单数据,Manus 从三个 level 上均超越了 Deep Research。

再来看几个 demo:

任务 1:充当 HR 的角色,筛选存放在压缩包里面装的 10 份简历

Manus 被塞过来文件后,就开始干活:

(1)解压文件,浏览简历,提取关键信息

(2)分析所有 15 份简历,给出专业的排名建议

(3)提供详细的候选人资料和评估依据

(4)根据用户的偏好生成电子表格形式的报告

任务2:用户想要在纽约购买房产,要求安全的环境,低犯罪率,要有不错的学区,而且还不能超预算。

看 Manus 的执行过程,它分成以下几步:

(1)分解为 todo:将复杂任务分解为待办事项列表,包括研究安全社区、识别优质学校、计算预算、搜索房产等

(2)搜索:网络搜索有关纽约最安全社区的文章,收集相关信息

(3)写代码:编写 Python 程序根据用户收入计算可负担的房产预算

(4)筛选:筛选房地产网站上相关的房价信息,根据预算范围筛选房产列表

(5)整合:整理所有收集的信息,撰写详细报告。

任务3:分析过去三年中英伟达、迈威尔科技和台积电股票价格之间的相关性

拿到任务就开干:

(1)通过 API 访问雅虎金融等信息网站,来获取股票历史数据

(2)交叉验证数据准确程度(这点很聪明严谨,让我很放心!)

(3)写 python 代码进行数据分析、可视化

(4)结合金融分析的工具生成综合分析报告,向用户反馈其中的因果关系

整个执行过程的输出很详细,有很多像人的操作,比如上下滑动、点击元素。

完全像一个人在完成任务的过程一样。

仔细看所有的任务,不外乎有几个核心的流程:上网搜索、编辑器、执行 Linux 终端命令、写代码

图片

更多感觉,它像一种“DeepResearch  + Computer Use + Artifacts”多种现有技术的结合体。

这就是 Manus 区别于其他的关键。背后是靠一套云端的虚拟机环境支持。

比如 DeepResearch——

能联网检索、快速获取、整理和分析大量数据。

Claude 的 Computer Use——

更像是一个背后的操盘手,负责任务调度和执行、高效地管理和分配计算资源

Artifacts——

借鉴 Claude 策略,给 Manus 提供与现实世界交互的能力,最后的呈现结果直接在网页上立竿见影地看到。

综合起来,Manus 就变成了一个高效协同的整体,可以处理复杂的任务流程。

因为官方这次并没有放出来技术报告,一切猜测也仅是基于以往技术形态,所以我更倾向于把它看作是一个系统创新。

除了简历筛选、选房、炒股这三个案例之外, Manus  官网还展示了十多个  manus  能够胜任的场景,比如整理行程、个性化推荐旅游路线。

图片

回到一个问题上来,Manus 为什么就突然火了呢?

回答之前,我们先回顾一下,OpenAI 的 规划的 AGI 路线图——

图片

Level1: 常规的 chatbot 形态;

Level2: 对应目前的强推理模型;

Level3: 具备 agent 能力,基于指令,可以 take action 的 AI 系统

Manus 这个产品,就是来到了这个阶段。

就像官方对 Manus 的定义——

“Manus is a general AI agent that bridges minds and actions: it doesn't just think, it delivers results”

翻译过来就是——

Manus 是一款通用型 AI agent,它连接思想与行动:它不仅思考,更能交付成果。

再看“Manus”这个名字——

它来源拉丁语单词 “manus”,意思是 “手”,象征着 行动、执行、操作

和 Agent 的特点非常吻合——

就是能够自主地执行任务,将想法转化为行动,就像一只能够执行各种操作的 “手”。

你就理解成是,Manus 是一个能动手、交付结果的 AI 助理。

图片

manus 网址:https://manus.im

但是,目前 Manus 还只能是少部分内测用户可以用,大部分用户都在求邀请码。网上大部分 case 也都是官方跑放出来的。

但是实际效果怎么样,不知道。用户量上来后,使用体验也不知道。所以蹲一个后续表现吧。

单看 demo 视频,还是挺强大的。

但至少,此时此刻,Manus 让我们看到了 AI Agent 的实际应用方式以及未来的样子。

个人觉得,从大模型发展阶段和用户体验看,Manus 确实击中了心理共振点。

大模型作为单一工具 chatbot 已经很成熟了,像 deepseek R1 配合联网功能,回答精准,但是无法执行,没办法自动执行多步骤的任务。

比如让它能写代码给你分析数据,能给你思路,但是不能打开 Excel 操作啊。

用户心理上已经从“惊艳”转向了“期待更多”,我把任务丢给你,直接给我完成的结果多省事儿啊。这样就解放双手,顺便也解放了大脑。

职场打工人干的最多的事儿就是:从一坨 XXX,整理 + 处理 + 分析,到 word、Excel 这种结构化数据。

Manus 就是 match 了当下用户的这个心理共振点。

更惊喜的是,这次又是国产力量!来自于成立于 2023 年的 AI 创业公司。

图片

宣发视频里的就是 Co-founder 季逸超,是一位 90 后连续创业者,早期开发过猛犸浏览器一度出圈,还获得过红杉资本和真格基金联合投资,成立 Peak Labs 实验室,徐小平曾公开表示“投的是季逸超这个人,支持他做最野的事”。

资料太有限了,只能用 deepseek 帮我生成了一些资料(AI 生成,不一定 100% 准确)

图片

上面季逸超是联创,创始人是肖弘,毕业于华中科技大学,连续创业者,夜莺科技创始人,曾推出“壹伴助手”“微伴助手”等工具,近几年转型做的和 AI 相关的产品则是 Monica,定位是轻量级 AI 助手,Manus 是最新发布的 AI 产品,两者定位不同,为解决复杂任务执行,技术理念强调“Less structure, more intelligence”,通过多代理架构实现自主规划与执行。

这次 Manus 的发布,堪称是——

凤衔金榜出门来,平地一声雷!

开心的是,这是继 DeepSeek 之后,又一个中国 AI 的崛起。

从此不是追赶者的叙事,而是开启 Agent 新纪元的火种!