新加坡教授、快商通首席科学家创建多轮对话质量评估体系

对话的本质上是对话者之间的多回合互动,有效的评估指标应该要反映出这种互动的动态。现有的自动的度量标准非常关注多轮对话的质量,而忽略了这种动态性。
现代对话系统的语言模型预训练虽然能够产生流畅的和语境相关的话语,但是仍然面临着模仿人类对话的困难,因为其缺乏特定的对话层次属性,如连贯性、一致性、多样性和参与性。其中一个主要原因是缺乏有效的对话级评估机制来指导研究和监测进展。
常用的静态指标,如 BLEU、METEOR 和 ROUGE,与人类判断的关联性很差,并不适合对话的评估。此外,尽管最先进的聊天机器人在多回合水平的评估标准,比如趣味性、参与度和特殊性上优于人类,但他们的对话水平评级,如连贯性,可爱性和多样性仍然远远低于人类水平。
来自快商通新加坡AI 实验室的李海洲教授的团队就提出了统一的自动评价框架 DynaEval,它不仅能够进行多轮对话的评价,而且能够综合考虑整个对话的质量。
李海洲,现任快商通首席科学家,新加坡国立大学电气与计算机工程系终身教授,德国不来梅大学卓越讲座教授。
他自 1994 年先后担任法国国家科学研究中心 (CNRS) 研究员、苹果公司新加坡研究中心语音实验室主任、言丰科技副总裁和新加坡科技研究局旗下资讯通信研究院研究总监。2012 年,他联合创办了 “百度 - 新加坡资讯通信研究院联合实验室”, 并成为该实验室首任联合主任。2018 年,他兼任厦门快商通科技股份有限公司首席科学家 。
DynaEval 自动评价框架,采用了图卷积网络(GCN)对对话进行整体建模,其中图节点表示每个单独的话语,边表示话语对之间的依赖关系。实验表明,DynaEval 显著优于目前最先进的对话连贯模型,并且在多轮对话和对话水平上与人类对多个对话评价方面的判断有着强烈的相关性。
图片
图 | DynaEval 的结构(来源:研究论文)
在这项工作中,研究人员通过关注整个对话的质量来解决自动开放域对话评估的问题。这个研究的主要贡献包括,首先,统一的多轮对话和对话级别评估代表了对多轮对话级别评估方案的背离。其次,DynaEval 是第一批将对话级动态与结构化图形表示相结合的方法之一。第三,实证结果表明,DynaEval 模型优于最新的对话连贯模型,并且在多轮对话和对话层面上都与人的判断有很强的相关性。
DynaEval 是一个统一的框架,用于在开放域对话中进行多轮对话和对话级别的评估。它利用 GCN 对说话人和话语层面的交互进行了显式建模,已被证明有利于评估任务。DynaEval 还可以与特定的多轮对话级别度量相结合,例如那些目标影响和参与度,以充分接近人机交互的评估过程。
李海洲教授此前在采访中表示,传统研究停留在基于问答准确率去衡量单次来回的对话效果,而缺乏对多轮对话效果的质量评估。所以他在论文中提出了 “对多轮对话质量整体评估的新算法”,这项技术突破显著提高了对智能对话系统的自动评估能力,而且算法的机器学习过程无需依赖带标注的数据。
新算法的特点是从大量的人与人的对话库里自动学习到对话的特征,将多轮对话效果衡量化为数值后,可对整体对话篇章打分以量化评比对话质量。评分维度包括单句评估、篇章逻辑性与篇章和谐性。因对话语言涉及到用词、语法、语义、语用等多层次内容,所以在传统单句评估基础上,还需设计算法考量对话篇章的逻辑性与和谐性。
对多轮对话质量进行评估的技术突破将为对话机器人产品优化带来显著影响。一方面,对话机器人产品可基于现有评估体系不断优化造句能力,以提升对话交互效果;另一方面,该技术也有利于对话机器人搭建自动评估体系,多维度评估人工对话效果,更有利于产品优化,提升客服质量。
-End-
参考: