斯隆奖得主苏煜团队最新研究:Mind2Web 2如何用Agent-as-a-Judge框架重新定义智能体搜索评估

智猩猩GenAI整理

编辑:六一

随着大模型能力的持续提升,基于智能体的搜索系统(如Deep Research)正快速发展。然而,面对这类可能执行数百次操作、访问数十个网站才能完成的长期复杂任务,现有评估基准和方法已难以匹配其快速演进的技术复杂度和场景开放度。

为此,2025斯隆研究奖得主苏煜在内的俄亥俄州立大学团队与Amazon AGI团队的研究人员联合推出了Mind2Web 2:一个包含130个真实、高质量且长周期任务的新基准测试集,并提出了Agent-as-a-Judge框架,实现自动评估答案的正确性及其来源归属情况。

论文对前沿的智能体搜索系统和人类表现进行了全面评估,并开展了详细的错误分析,为开发和评估下一代智能体搜索系统奠定了坚实基础。

图片

  • 论文标题:

    Mind2Web 2:Evaluating Agentic Search with Agent-as-a-Judge

  • 论文链接:

    https://arxiv.org/pdf/2506.21506

  • 项目地址:

    https://osu-nlp-group.github.io/Mind2Web-2/

Mind2Web 2 基准测试集

为有效检验智能体搜索系统的综合能力,Mind2Web 2的任务设计需满足以下核心特征:真实性与多样性、长周期与高复杂度、客观可验证性和时效性(可选)

这些任务由三组标注人员组成的团队进行收集,他们分别主导不同的阶段。

  • 任务提出者基于真实需求或领域指南构思任务,确保任务具有真实性和复杂性。

  • 优化专家与提出者协作,迭代修改或筛选任务,确保符合任务原则。

  • 验证专家手动测试任务可行性、潜在问题及评估方法,至少两位专家独立确认后,任务才被纳入Mind2Web 2。

图片

与现有网页浏览或实时网站搜索基准的比较。Horizon(任务长度):每项任务所需的平均操作次数,分为三类:短(< 10)、中(10−50)、长(> 50)。Time-Varying(时间变化性):答案是否会随时间发生变化。

Agent-as-a-Judge 框架

为应对动态变化且复杂答案的评估挑战,论文提出了一种创新的Agent-as-a-Judge框架。该方法基于评分标准树,构建任务特定的评委智能体,以自动评估答案的正确性以及来源引用的准确性。

图片

1.评分标准树

为对Mind2Web 2任务进行可靠、可扩展且自动化的评估,论文设计了一套统一的树状评分标准。每个叶节点代表一个可简单验证的标准,并输出0或1的二元评分,父节点逐层聚合子节点得分,最终计算高层次标准的评分。

评分标准中的节点可以是关键节点,表示一个必要的标准,失败将直接导致其父节点不通,或者是非关键节点,允许在其父节点上获得部分分数。此外,某些节点可以被标记为顺序节点,表示其子节点存在逻辑依赖关系,前序节点失败则终止后续评估。

评分聚合采用一种门控后平均(gate-then-average)策略:当关键节点与非关键节点共存时,关键节点作为门控条件。如果某个节点仅包含关键子节点,这意味着每个子节点都是父节点标准的必要条件,父节点的得分直接取决于所有这些关键子节点是否都通过。

图片

2.基于评分标准的评委智能体

Mind2Web 2中的每项任务都由一个专用的评委智能体进行评估,本质上就是通过一个Python脚本实现类似评分树的评估逻辑。

具体来说,评委智能体以答案文本(包括引用来源)作为输入,使用LLM工具从答案中提取结构化信息,并检查提取的信息是否与引用的来源一致。根据评分标准的树形结构,从叶子节点开始逐层向上聚合分数,最终生成整体评分

为了构建评委智能体,研究团队还开发了模块化的Python工具包,并通过LLM自动生成脚本的初始版本,自主迭代进优化完善,最后人工进行严格验证,确保其正确性并提升其对各种可能答案的泛化能力。

实验

论文在Mind2Web 2上对多种类型的智能体搜索系统进行了评估,结果显示:搜索增强LLM(如ChatGPT/Perplexity)受限于短周期交互和浅层信息整合,表现较弱;Deep Research类系统凭借长周期任务支持和多种工具的集成展现优势。网页交互智能体(如OpenAI Operator)在复杂环境中表现欠佳,突显其在动作空间管理和长上下文处理上的不足。其中,OpenAI Deep Research表现最佳,已能达到人类50-70%的任务完成水平,且耗时仅为人类的一半,展现出巨大潜力。

图片

Partial Completion:所有任务中根节点得分的平均值,反映基于细粒度评估的部分完成情况;Success Rate:指根节点得分为满分1的任务占比,衡量完全达标情况;Pass@3:任务在三次尝试中至少成功一次的概率;Time:平均任务完成时间;Average Length:答案平均长度

此外,论文还对当前的智能体搜索系统进行了详细的错误分析,定义了七个常见且易于识别的错误类别,其中核心的错误类别为:完整性缺失、违反标准、无效归因、缺失归因,以及无支撑答案,揭示了当前智能体搜索系统的关键局限性,为下一代系统的研发提供了改进方向。

图片