这项由ServiceNow公司研究团队开发的评估框架,以预印本形式发布于2026年5月,论文编号为arXiv:2605.13841,感兴趣的读者可通过该编号在arXiv平台检索原文。
**电话那头的AI,到底靠不靠谱?**
每个人大概都有过这样的经历:拨打客服热线,等待许久之后,接通的不是真人而是一个语音机器人。它也许能流畅地说出"您好,请问有什么可以帮助您",但一旦你说出稍微复杂一点的需求,它就开始原地打转——要么答非所问,要么反复追问同一个问题,要么给出一个听起来还行但其实完全错误的答案。
现在这类语音AI客服正以惊人的速度扩张,从航空公司到医院人事部门,从IT技术支持到保险理赔,几乎每一个需要电话客服的场景都在引入这种系统。然而一个尴尬的现实是:我们几乎没有一套可靠的方法来评判这些语音AI到底做得好不好。怎么算"好"?是接通率高?是没有答错?还是用户没有中途挂电话?
ServiceNow的研究团队将这个问题推进了一大步。他们构建了一套叫做EVA-Bench的完整评估体系,专门用来考察语音智能客服的真实表现水平。这套体系最特别的地方在于:它用另一个AI来模拟打电话的用户,让两个AI之间真正通话,然后再用更多AI来给整段对话打分。整个过程全程自动化,覆盖了真实客服场景里几乎所有可能出问题的角落。
---
**一、语音AI为什么比文字AI难评估得多**
要理解EVA-Bench解决了什么难题,得先明白语音对话和文字对话之间有多大的差距。
文字客服就像在发短信——用户写下问题,AI读懂之后回复。即使AI回答错了,你至少能看到完整的对话记录,分析起来相对容易。但语音对话完全不同,它更像是两个人在打电话:声音是一次性的、线性的,你不能像翻书一样来回翻看,说错了也无法撤回,时机和节奏本身就构成了沟通质量的一部分。
语音AI还要额外对付几个独特的挑战。首先是"听力"问题——语音必须先被转换成文字才能被处理,这个转换过程会引入各种错误,尤其是在用户说话带有口音、背景嘈杂或者需要传达像"QWMN62"这样的字母数字混合确认码时,哪怕转录错了一个字母,整个业务流程就可能彻底失败。其次是"说话"问题——AI生成回答之后还需要转换成语音输出,在这个过程中,数字金额、日期、机票号码等关键信息可能被念错,而用户如果没有注意到,就会带着错误信息离开通话。再次是"时机"问题——在语音对话里,什么时候开口、什么时候停顿、什么时候允许对方插话,这些都是真实对话体验的核心组成部分,文字系统根本不涉及这些维度。
正因为这些差异,专门为文字AI设计的评估工具用在语音AI上就像用卷尺量体温,工具本身没问题,就是测不了想测的东西。
---
**二、用"假用户"来测试"真AI":模拟对话的核心设计**
EVA-Bench的核心思路是让AI扮演打电话的用户,与被测试的语音客服AI进行真实的音频通话。这不是在给AI看文字脚本,而是真正的音频信号通过网络传输,两个系统在实时互动。
为了让这个"假用户"足够逼真,研究团队为它配置了一套完整的角色说明。每次通话前,用户模拟器都会收到一份详细的任务书:你要达成什么目标、必须坚持哪些条件(比如必须要下午两点前从洛杉矶飞旧金山的直飞航班,费用不超过80美元)、如果客服拒绝应该如何应对、以及在什么情况下可以结束通话。用户模拟器还被赋予了具体的性格——有的急性子,说话简短利落;有的是老年人,说话慢吞吞还会要求对方重复;有的是粗心大意型,中途会忘词、需要找手边的证件。
这种设计确保了测试不是在考察AI能不能应对完美用户,而是在测试它能不能处理各种真实的人类行为。
然而,让AI模拟用户还有一个根本性的风险:如果模拟器自己就出了问题怎么办?比如它忘记提供关键信息,或者在正确答案出来之前就挂断了电话,那么被测试的客服AI失败了,到底是它自己的问题,还是"假用户"配合不好?
研究团队为此设计了一套严格的"通话质量门控"机制。每通通话结束后,在给客服AI打分之前,系统会先审查用户模拟器的行为是否合规。这个审查分成两个层面:第一层检查行为,包括用户有没有提出超出任务范围的额外要求、有没有在给完信息后立刻挂掉电话(没给AI留处理时间)、有没有遗漏必须提供的信息、有没有违反既定的决策逻辑;第二层检查语音,验证AI发出的语音内容是否准确传达了它应该说的信息,尤其是关键的字母数字代码有没有被正确说出来。任何一项检查不通过,这通电话就会被丢弃,系统自动重打一次。
实际测试中,这套机制发现了大量问题:在四个系统的测试样本里,约12%的对话因为用户模拟器行为不规范而被丢弃重做,其中最常见的问题是用户提前挂电话(占问题对话的64%)和用户违背了预设的决策逻辑(占53%)。
---
**三、考试卷有两份:准确性和体验感分开打分**
对于被测试的语音客服AI,EVA-Bench设计了两份相互独立的"考试卷",分别叫做EVA-A(准确性)和EVA-X(体验感)。
EVA-A衡量的是客服AI有没有把事情做对。其中最核心的一项是"任务完成度"——这道题的评判方式极其严格:系统在对话结束后,会把后台数据库的实际状态与预期状态做哈希值对比,完全一致才算通过,差了一个字段就是零分。这就像考试卷里的大题,要么全对,要么白卷,没有部分分。
但仅仅完成任务是不够的。EVA-A还包含一项叫做"忠实度"的评分,考察AI在完成任务的过程中有没有犯错。一个常见的错误模式是:AI调用了正确的工具完成了操作,但在口头上对用户说了错误的信息——比如明明收取了75美元手续费,却告诉用户费用已经减免;或者在没有得到用户明确确认的情况下就执行了不可撤销的操作。这类错误在最终数据库状态上可能看不出来,但对用户的伤害却是实实在在的。
EVA-A还有第三个维度叫做"语音保真度",专门检查AI实际说出来的内容和它本应说的内容是否一致。这道题只有AI真正输出语音的原始音频文件才能作答,用文字记录是无法评判的。评分系统会提取每次通话中客服AI说话的音频,逐句核查关键实体是否被准确发音。研究发现,字母替换、数字遗漏、音近字混淆是最常见的语音保真度失败模式——比如把确认码"ZKLX8E"念成了"ZKLXIE",把10位NPI编码"3342331444"少念了最后一个4,这些对用户来说都是灾难性的信息错误。
EVA-X则从完全不同的角度评估同一段通话,它衡量的是对话过程中用户的感受。这份考卷的第一项叫做"对话推进度",考察AI有没有在高效推动通话向目标前进,还是在原地打转——比如反复询问已经提供过的信息、用同样的方式说过的事情再说一遍、每次结束一个话题都要全部复述一遍。第二项叫做"简洁度",评估AI的每一轮回答是否适合用语音传递——电话里的人不能暂停、不能后退,如果AI把五个选项的详细说明塞进一轮回答,用户根本没有机会消化这些信息。第三项叫做"轮次把握度",这是一个纯粹基于时间戳的指标,计算每次交互中AI开口的时机:太早了是打断用户,太晚了是尴尬的沉默,两种情况都会让通话体验变差。
这两份考卷的得分是独立的,任何一份低分都不能被另一份高分掩盖。
---
**四、考试场景设计:三个行业、213个剧本**
EVA-Bench包含了三大企业应用场景,总共213个测试剧本,这些剧本不是随机堆砌的,而是经过精心设计,专门针对语音AI最容易出问题的地方。
第一个场景是航空公司客服,共50个剧本,围绕航班改签、退票、错过转机等高压情境展开。这类场景的特点是时间敏感、政策复杂、需要传递大量字母数字组合(确认码、航班号、乘客姓名),而且用户通常处于焦虑状态,对等待和绕圈子的容忍度极低。
第二个场景是医疗机构的人力资源服务,共83个剧本。这是三个场景里流程最复杂的——平均每个剧本需要AI调用8.7次工具才能完成任务。医院的HR流程涉及NPI编码(医疗从业者唯一识别码)、DEA注册号、州执照号、一次性验证码等密集的标识符,任何一个转录错误都可能导致整个认证流程失败。
第三个场景是企业IT服务台,共80个剧本,覆盖账号登录问题、系统故障报告、硬件请求、软件许可证申请等常见IT工单场景。这个场景的特别之处在于它的"分支结构"——比如处理系统故障的流程要求客服必须先完成故障排查步骤,只有排查失败之后才能升级为工单,不能跳步骤。这种逻辑门控测试的是AI能不能理解并遵守条件性的业务规则。
每个场景内部还按难度分成三类剧本:单一任务剧本要求AI在一通电话内完成一件事;多任务剧本要求AI处理两到四件并发的事情而不混淆;对抗性剧本则设置了一个试图绕过政策的"刁蛮用户"——比如一个坚持要求以过去的日期作为FMLA假期起始日的员工,看AI能不能在礼貌的反复施压下坚守政策底线,不被"说服"执行违规操作。
所有这些剧本都经过了人工审核和前沿AI模型的压力测试:研究团队用GPT-5.4、Gemini 3.1 Pro和Claude Opus 4.6在纯文字模式下跑了一遍所有剧本,凡是三个模型都无法完成的任务,研究团队会逐一检查是剧本本身有问题还是确实太难,经过修正后才正式入库。
---
**五、把声音扭曲:口音和噪声测试**
正常录音棚质量的语音只是最理想的情况。真实世界里,打电话的人可能在咖啡馆里、可能有外国口音、可能信号断断续续。EVA-Bench专门设计了一套"扭曲测试",向用户模拟器注入各种声学干扰,看被测AI在不完美条件下的表现退化了多少。
研究团队实施了三组对照实验:一组用带法语口音的用户声音进行测试,一组在用户声音中混入咖啡馆背景噪声,一组同时叠加口音和噪声。被测试的12个系统在这三种条件下各跑了90个剧本。
结果揭示了一个非常清晰的架构分裂:以文字转语音串联方式工作的"级联式"系统(先把用户声音转成文字,再用文字模型处理,再转回声音)在口音面前大幅退步——任务完成率平均下降10个百分点,最差的系统下降了17个百分点。而直接处理音频的"端到端"语音系统则几乎没有受到口音的影响,27个可比较的测量指标里没有一个出现显著下降。
背景噪声的影响则是另一种模式:端到端语音系统在噪声条件下的体验感指标出现了明显下降,轮次把握度平均下降16个百分点;而级联式系统的任务完成率在噪声下也同样恶化,下降幅度和口音条件相近。当口音和噪声叠加时,级联式系统的任务完成率平均下降19个百分点,最严重的下降了31个百分点;端到端系统则基本维持在清晰条件的5个百分点以内。
这些数字背后有一个直觉上的解释:级联式系统的弱点在于"听力"——一旦用户说话不标准,转录就会出错,后续一切都建立在错误的文字上;端到端系统没有这个转录瓶颈,但它用于控制对话节奏的机制在嘈杂环境下会受干扰。两种系统在不同维度上各有短板,并不是端到端就全面优于级联式。
---
**六、真正的考试成绩揭晓:没有一个系统同时答好两份卷子**
研究团队对12个系统进行了全面评测,包括7个级联式系统、2个混合式系统和3个端到端语音系统,涵盖了目前市面上最主流的技术路线和模型组合。
最引人注目的发现是:没有任何一个系统在准确性(EVA-A)和体验感(EVA-X)两个维度上同时达到0.5分(满分1分)。分数最高的GPT-Realtime-1.5勉强同时越过了0.4的门槛——准确性得了0.47,体验感得了0.57,但依然离"同时及格"有一段距离。
在体验感维度上,端到端语音系统的优势来自轮次把握,三个端到端系统的轮次把握平均分在0.82到0.83之间,而级联式系统的范围只有0.28到0.58。这意味着端到端系统在时机上的表现要稳定得多,它们说话的节奏更自然,不会让用户感觉在等待漫长的停顿。简洁度和对话推进度这两个指标倒是没有体现出类似的架构差异,两类系统表现相近。
但在准确性上,情况颠倒了:表现最好的几个级联式系统(比如Scribe+Gemini-3-Flash+Conversational v3和Nova+GPT-5.4+Sonic 3)在任务完成率上可以达到0.736和0.609的均分,而三个端到端系统的任务完成率均分分别是0.473、0.739和0.345,最强的端到端系统GPT-Realtime-1.5虽然勉强可以与最强的级联式系统持平,但整体而言端到端系统在准确性上的表现更不稳定。
混合式系统(用音频模型处理输入但用独立的TTS模块处理输出)的表现则令人有些意外:它们的轮次把握得分和级联式系统处于同一范围,远没有达到端到端系统的水平。研究团队认为这说明仅仅在输入端使用音频模型并不足以解决响应延迟问题,真正的低延迟对话需要在输入和输出两端都实现端到端的音频处理。
---
**七、峰值能力与可靠能力:考一次和次次都能考好,差别有多大**
EVA-Bench的另一个重要发现来自它独特的多次测试设计。在清晰条件下,每个系统对213个剧本各运行了5次;在扭曲条件下,对90个剧本各运行了3次。这个设计让研究团队可以区分两种不同的能力:峰值能力(只要有一次通过就算)和可靠能力(每次都能通过才算)。
研究发现,所有12个系统的峰值能力都显著高于可靠能力,而且差距大得惊人。在准确性维度,峰值分数和可靠分数之间的中位数差距达到了0.44分;在体验感维度,中位数差距也有0.24分。换句话说,如果一个系统偶尔能完成某个任务,并不代表它面对同样任务时总是能完成。
从最实际的角度解读这个发现:如果我们用传统的单次测试来评估一个语音AI,报告出来的分数可能代表的是它在最好状态下的表现,而不是它每天面对真实用户时能稳定兑现的表现。这就像考试只考一次——也许你那天状态特别好,但在一个工作日里处理几百通电话,稳定性才是真正重要的指标。
---
**八、关键细节往往决定成败:名字和代码的转录问题**
研究团队还专门分析了语音AI失败的模式,发现了一个高度规律性的现象:在所有级联式系统中,关键实体的转录准确率与任务完成率呈现出极强的相关性,皮尔逊相关系数高达0.93。换句话说,一个系统能不能完成任务,很大程度上取决于它的语音转文字模块能不能准确识别那些关键的名字、代码和数字。
那些关键实体转录准确率低于70%的系统,任务完成率比高于70%的系统平均低了39个百分点。这个差距在三个领域里都成立:IT服务台场景差距41%,医疗HR场景差距41%,航空客服场景差距34%。
仅靠转录准确率还不够——使用同一个语音转文字模块的两个系统(Nova-3做转录,一个搭配GPT-5.4,另一个搭配GPT-5.4-mini)在任务完成率上仍然有明显差距,说明LLM本身的推理和决策能力也是重要因素。
在语音输出端,字母数字实体的发音错误是最主要的失败来源:字母替换(把ZKLX8E说成ZKLXIE)、数字遗漏(把10位数的NPI编码漏掉最后一位)、字符插入(把MEAL-7MMHTS-PAX0多说成MEAL-7EMMHTS-PAX0)、以及音近混淆(把字母C和P搞混)在所有被测系统上都有出现,无一幸免。
---
**九、忠实度和任务完成度是两回事:对话记录说明了什么**
一个看起来矛盾的统计数字揭示了语音AI评估的核心难题:在所有12个系统的12780次对话里,有72.2%的"任务完成成功"案例同时也存在"忠实度"问题。也就是说,客服AI最终把事情做对了,但在过程中说了不该说的话、漏掉了应该告知的信息、或者在没有充分确认的情况下执行了不可逆操作。
反过来看,50.5%的"忠实度失败"案例同时也是"任务完成失败"案例,说明部分任务失败确实是由过程中的错误所导致的。
这两个数字合在一起说明的是:任务完成度和忠实度是两个相互独立但互有关联的维度,任何一个都不能替代另一个。一个永远不犯"口误"的AI不一定能完成任务,而一个总能完成任务的AI可能在过程中对用户造成了各种隐性伤害——给了错误的费用信息、在用户不知情的情况下修改了账户、或者违反了应有的操作流程。
---
归根结底,EVA-Bench告诉了我们一件很重要的事:评估语音AI不是一道简单的题,它需要同时考察一个系统能不能做对事情、有没有在过程中说错话、说出来的声音是否准确传达了正确信息,以及整个对话的节奏和感受是否让真实用户觉得自然顺畅。更重要的是,偶尔能做好不等于稳定可靠——任何一个严肃部署语音AI的机构都需要了解这两种能力之间的真实差距。
目前没有任何一个系统同时在准确性和体验感两个维度上达到令人满意的水平,这本身就是对整个行业现状的一个诚实写照。端到端语音系统在对话流畅度上有明显优势,而高质量的级联式系统在任务准确度上可以不输于最好的端到端系统,但这两类系统都面临着不同的声学鲁棒性短板。
EVA-Bench的完整代码、评估工具、以及213个测试剧本已经以开源形式发布,任何人都可以通过GitHub上的ServiceNow/eva仓库获取并用于测试自己的语音AI系统,或者在HuggingFace的ServiceNow-AI/eva数据集页面获取测试数据集。对于任何正在考虑部署或采购语音AI客服系统的团队来说,这套工具提供了一个比以往更接近真实部署条件的参照系。更深入了解技术细节的读者,可通过arXiv:2605.13841检索完整论文。
---
**Q&A**
Q1:EVA-Bench是什么,和其他语音AI评估工具有什么不同?
A:EVA-Bench是ServiceNow研究团队开发的端到端语音客服AI评估框架,最大的不同在于它用另一个AI扮演真实用户来和被测系统进行真正的音频通话,而不是给AI看文字脚本。它还引入了两套独立的评分标准——准确性(EVA-A)和体验感(EVA-X)——以及多次重复测试来区分峰值能力和可靠能力,覆盖了其他工具忽视的语音保真度和对话时机等维度。
Q2:端到端语音AI和级联式语音AI哪个更好?
A:两类系统各有明显的优势和短板,没有全面胜出的一方。端到端系统(直接处理音频输入和输出)在对话节奏上更自然,且对口音的抵抗力更强,但在复杂业务任务的完成准确率上表现参差不齐。级联式系统(先转录成文字再处理再转回语音)在准确完成任务方面可以达到很高水平,但遇到口音或背景噪声时任务完成率会显著下降,响应延迟也通常更大。
Q3:语音AI客服在识别确认码这类字母数字组合时为什么特别容易出错?
A:确认码、证件号码等字母数字组合对语音AI来说有两重难关。输入端,用户说出"Z-K-3-F-F-W"时,每个字符都要被准确识别,任何一个音近混淆(比如B和D、V和Z)都会导致整段代码作废;输出端,AI把这些代码念出来时同样面临字符替换、遗漏或多读的问题,而用户通常没有机会反复核对听到的内容。EVA-Bench的研究发现,关键实体的转录准确率和任务完成率之间的相关系数高达0.93,说明这类错误是级联式系统任务失败的最主要瓶颈之一。