当下,如何评估工具增强的大型语言模型(LLMs)在运用工具时产生的幻觉现象面临一个棘手难题,即缺少专门针对 LLMs 使用工具时的幻觉问题的基准测试,致使难以全面衡量模型在此情境下衍生的各类幻觉状况,尤其当任务无法解决时模型会作何表现,更是难以精准判断。
现有的工具使用基准测试,像AgentBench、ToolBench 和 AgentBoard,核心关注点在于用户给出完整工具列表时,模型如何使用这些工具来完成任务;但在真实应用场景,用户鲜少能提供完整工具清单,令这类基准测试存在局限性。MetaTool虽考虑到用户提供工具列表不完整的情况,可依旧仅着眼于任务能否完成,没能直击LLMs使用工具时的幻觉评估痛点。
ToolBeHonest基准为识别和解决LLMs中的缺陷提供了详细的分析和有价值的见解。它是清华大学、浙江大学和早稻田大学等联合推出的一个针对工具增强型大型语言模型(LLMs)的多级幻觉诊断基准测试。
这个基准测试是首次引入多层级诊断评估体系,旨在全面评估LLMs在实际应用中使用工具时出现的幻觉问题。评估显示,GPT-4o 相较于 Gemini-1.5-Pro,仅得 37 分。该评估代码和数据集均已全部开源,上线至始智AI wisemodel开源社区,欢迎大家前往下载和使用。
https://wisemodel.cn/datasets/wanng/ToolBeHonest/intro
ToolBeHonest(简称ToolBH)主要用于工具增强型大型语言模型的多层次幻觉诊断基准,极具创新性。1、多级诊断框架:论文提出了一个多层次的诊断框架,包括可解决性检测、解决方案规划和缺失工具分析,全面评估了模型在处理工具时的幻觉现象。2、广泛的场景覆盖:设计了三种基于工具集特征的幻觉诱导场景:缺失必要工具、潜在工具和有限功能工具,涵盖了多种可能的工具使用错误。3、详细的错误分析:通过详细的错误分析,揭示了模型在使用工具时存在的主要问题,如无法判断任务的可解决性、错误使用工具等。4、大规模数据集:收集了700个标注样本,涵盖了多种任务和场景,确保了评估的全面性和可靠性。5、开放的评估框架:框架设计灵活,可以轻松替换工具以进行更全面的模型性能分析。6、伦理考虑:在数据处理过程中引入了手动干预,以减少潜在的伦理偏见。ToolBH基准测试旨在精准诊断工具增强的大型语言模型(LLMs)在使用工具时所产生的幻觉现象,为此构建了一套系统的研究方法。一方面,设立多级诊断过程:先是可解决性检测,聚焦于判定用户查询能否借由给定工具集予以解决,此任务设定为二元分类任务,采用精确匹配(EM)当作度量标尺;紧接着是解决方案规划,着重考量模型在微观层面规划工具使用的能力,要求模型拆解用户请求为若干子目标,再运用对应工具分步落实任务,其间还引入“无法解决的查询”工具,用以处置工具无力完成子目标的状况,借进度率(PR)度量标准评估预测工具序列相较真实工具序列的精准度;最后是缺失工具分析,要求模型详尽说明各子任务里缺失工具的功能,通过进度率(PR)和匹配得分(MS)评测模型推理水准。另一方面,设置广度评估场景:从工具集特性切入,设想了三种易催生幻觉的场景。在缺失必要工具场景下,用随机移除一个工具的方式炮制无法完成的任务;碰上潜在工具场景,则移除一个工具并添入环境细节,借此误导模型错用未提供或不合适的工具;至于有限功能工具场景,靠增添额外要求、约束条件生成无法完成的任务。这般全面且细致的设计,让 ToolBH 基准测试能更有效地洞察 LLMs 使用工具时的幻觉问题。
先是着手数据收集工作,历经多轮人工注释,精心汇拢 700 个评估样本,每个样本都详细涵盖用户查询、工具集以及解决方案,为后续研究夯实基础;样本生成阶段,巧妙设计种子样本,借助 Gemini-1.0-Pro、GPT-4o 这类高级 LLMs 合成额外样本,合成后还细致过滤、人工严格审查,以此保障样本兼具多样性与高质量。紧接着进行数据集划分,将数据集精准切分为 Level-1 至 Level-3 三个难度级别,各层级均衡囊括等量的可行、不可行样本,整合出 1050 个测试样本,充分适配不同研究场景;在模型选择上,广泛考量,敲定 14 个常用 LLMs,其中专有、开源模型各 7 个。到了评估设置环节,为贴合各模型特性,专门为每种模型类型定制专属配置,专有模型调用各自 API 产出输出结果,开源模型则依托 vLLM 库搭建推理环境,全力确保结果可重复、稳定一致。结果表明,即使在简单的工具使用任务中,LLMs在无法解决条件下也容易产生幻觉。训练数据的质量、响应策略和长文本推理一致性对模型性能有重要影响。错误分析揭示了LLMs主要在可解决性幻觉方面存在问题,即无法准确理解用户查询和工具及其功能。ToolBH基准测试为识别和解决LLMs中的缺陷提供了详细的分析和有价值的见解,为未来的研究提供了指导。在总体评估环节,Gemini-1.5-Pro 脱颖而出,斩获 45.3 的亮眼分数,力压一众竞争对手,尽显优势;开源模型里,Llama-3-70B 表现最为出众,却与专有模型相较仍存在显著差距,凸显出两类模型间的性能落差。
深度评估维度下,情况不容乐观,所有参与评测的模型在 Level-3(缺失工具分析)这类高难度任务面前遭遇严峻挑战,随着评估级别的逐步攀升,模型于 LFT 场景中的表现愈发疲软,完成任务的准确率直线下降。广度评估时同样棘手,所有模型置身 LFT 场景都额外承压,艰难应对。开源模型呈现出复杂态势,在 L1-EM 任务中表现尚可,甚至优于 MNT 和 PT 场景;然而一旦触及 L2-PR 和 L3-PR 任务,发挥水准急转直下,成绩大打折扣。错误分析则精准揭露问题症结所在,原来 LLMs 普遍深陷可解决性幻觉困境,难以精准领会用户查询意图以及工具、工具功能,致使频频出错。专有模型自有特点,虽使用非存在工具时犯错率较低,可工具推理方面错误频发;开源模型与之相反,在可解决性幻觉问题上表现欠佳,却在长文本推理一致性上表现亮眼,各有优劣。