媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

机器之心

2024-11-20 15:01发布于北京机器之心官方账号

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

核心作者包括贺彦程，李世龙，刘佳恒，苏文博。作者团队来自淘天集团算法技术 - 未来生活实验室团队。为了建设面向未来的生活和消费方式，进一步提升用户体验和商家经营效果，淘天集团集中算力、数据和顶尖的技术人才，成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向，致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用，引领 AI 在生活消费领域的技术创新。

如何解决模型生成幻觉一直是人工智能（AI）领域的一个悬而未解的问题。为了测量语言模型的事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

为了进一步同步推进中文社区对模型事实正确性的研究，淘天集团算法技术 - 未来生活实验室团队提出了 Chinese SimpleQA，这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集，可以全面探测模型在各个领域的知识水平。具体来说，Chinese SimpleQA 主要有六个特点：

中文：专注于中文语言，并特地包含中国文化等特色知识相关的问题
全面性：涵盖 6 个大类主题（中华文化、人文与社会科学、自然科学、生活艺术与文化、工程技术与应用科学、社会）和 99 个子类主题
高质量：我们进行了全面且严格的质量控制，有包括 52 位外包和 6 位算法工程师的参与
静态：参考答案都是在时间上保持不变的，保证了评测集的长期有效性，可以长期作为模型知识能力的评估基准
易于评估：评测数据的问题和答案非常简短，评测可以基于任意的模型，能够以较低成本和较快速度进行高一致性的评测。
有难度和区分度：我们评估了 40 + 国内外开源和闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8)，其他大部分模型都处于低分状态，其中 GPT-4o mini 仅 37.6 分，ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。

基于中文 SimpleQA，我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 scaling law、模型校准、RAG、对齐税等研究问题，后续本评测集都可以作为这些方向的重要参考之一。

总之，我们希望 Chinese SimpleQA 能帮助开发者深入了解其模型在中文领域的事实正确性，同时也能为他们的算法研究提供重要基石，共同促进中文基础模型的成长。

论文链接：https://arxiv.org/abs/2411.07140
项目主页：https://openstellarteam.github.io/ChineseSimpleQA
数据集下载：https://huggingface.co/datasets/OpenStellarTeam/Chinese-SimpleQA
代码仓库：https://github.com/OpenStellarTeam/ChineseSimpleQA

一、数据集构建

在构建 Chinese SimpleQA 数据集的过程中，我们采用了严格且周密的流程，确保数据质量达到高标准。主要分为自动化构建和质量控制两个阶段：

1. 自动化构建阶段，主要包括五个步骤：

（1）知识内容提取与过滤：我们从维基百科等多种知识领域中收集大量富含知识的文本内容，并利用规则和质量评估模型筛除低质量数据。

（2）自动生成问答对：制定问题标准，基于高质量的知识内容，利用大型语言模型（LLM）基于标准条例自动生成问题与答案对。其中大概制定了 9 条严格的细则，包括：答案必须唯一且确定、答案不应随时间变化等。

（3）自动质量验证：通过 LLM 根据预先设定的标准对生成的问答对进行初步筛选，剔除不符合要求的样本。

（4）结合工具验证：引入 RAG 和 Agent 的方式，结合外部检索工具收集验证信息，指导 LLM 进一步准确评估答案的事实正确性。

（5）难度级别过滤：过滤掉过于简单的样本，提升数据集的难度，以发现 LLM 的普遍存在的知识边界。具体来说，如果一个问题四个模型都能正确回答，则认为该问题过于简单并予以舍弃。

2. 质量控制阶段，我们引入了严格的人工验证流程：

（1）每条数据在隐藏答案后交由两位独立的标注员进行标注，首先判断问题是否符合预定标准。不符合的问题将被淘汰。然后要求每位标注员结合权威来源（如维基百科、百度百科）的相关信息填写答案，同时需要提供至少两个参考链接，确保答案可溯源。

（2）若两位标注员的答案不一致，由第三位标注员进行复审，最终确定答案。

（3）安排多名算法工程师进行多轮抽检与反馈，同时不断细化标准

整个构建和标注过程中，初步生成了 10,000 对问答对，经过难度评估和多轮验证，最终只保留了约 3,000 对高质量的问答对，确保了数据集的高质量和严谨性，希望为评估 LLM 的事实正确性提供正确的引导。

二、评测指标

评测方式和指标直接遵循 OpenAI 的方式，主要有以下四个指标：

三、评测榜单

我们评估了 17 个闭源模型和 24 个开源模型，排名榜如下：

不同模型在 Chinese SimpleQA 上的结果。关于指标，Correct（CO）、Not attempted（NA）、Incorrect（IN）和 Correct given attempted（CGA）分别表示 “回答正确率”、“未回答率”、“回答错误率” 和 “回答精确率”。关于主题，Chinese Culture（CC）、Humanities（HU）、Engineering, Technology、Applied Sciences（ETAS）、Life, Art, and Culture（LAC）、Society（SO）和 Natural Science（NS）分别表示 “中华文化”、“人文与社会科学”、“工程、技术与应用科学”、“生活、艺术与文化”、“社会” 以及 “自然科学”。

总的来看，o1-preview 表现最佳，同时有几个近期专注于中文的闭源大模型（如 Doubao-pro-32k 和 GLM-4-Plus）的表现与 o1-preview 相近。从榜单表现来看，首先，“mini” 系列模型（如 o1-mini, GPT-4o-mini）的表现明显不如其对应的大模型（如 o1-preview, GPT-4o），这表明 “mini” 系列在记忆事实知识方面有明显的下降。其次通常越大的模型表现更好，例如 GPT、Qwen2.5、InternLM2.5 等系列。而小模型通常在 “未尝试（NA）” 项上得分较高，比如 o1-mini 和 InternLM2.5-1.8B，其 NA 分数分别为 20.5 和 31.2，远高于对应大模型的得分（如 o1-preview 的 12.2 和 InternLM2.5-20B 的 7.7）。另外，各模型在不同主题上的表现差异显著，特别是中文社区的大模型（如 Doubao-pro-32k, GLM-4-Plus, Qwen-Max, Deepseek）在 “中国文化（CC）” 主题上明显优于 GPT 或 o1 模型，而在科学相关主题（如 ETAS 和 NS）上，o1 则具有显著优势。

四、实验发现

我们还在 Chinese SimpleQA 上探索了 inference scaling law、模型校准、RAG、对齐税等热门研究课题（具体详见论文）。得出了以下几个有见地的发现：

1. 更大规模的模型有更好的校准性能

我们要求模型在回答问题时提供 0 到 100 的信心指数，以衡量模型的校准程度，即模型对其答案的自信程度。理想的校准模型应该是信心指数与答案的实际准确率相匹配。实验结果显示，GPT-4o 的校准优于 GPT-4o-mini，而 o1-preview 优于 o1-mini。在 Qwen2.5 系列中，校准效果依次为 Qwen2.5-72B > Qwen2.5-32B > Qwen2.5-7B > Qwen2.5-3B，说明更大规模的模型具有更好的校准性能。此外，对于所有评估的模型，当信心指数大于 50 时，它们的信心水平都低于了完美校准线，表明它们普遍对自身回答的准确性过于自信。

2.O1 提出的推理 scaling law 在事实类 QA 上也成立

我们研究了不同模型在增加推理计算资源和回答准确性之间的关系。具体方式是从 Chinese SimpleQA 中随机抽取 50 个样本，每个样本要求模型独立回答 100 次。通过 Best-of-N 方法随着推理次数的增加来计算模型的回答准确性。结果表明，随着推理次数的增加，所有模型的响应准确性都提高，并最终达到上限。这一现象与 OpenAI o1 发布时提出的结论表现一致。

3.RAG 仍是快速提升模型能力的捷径

我们同时在 Chinese SimpleQA 上探讨了检索增强生成（RAG）策略在提升 LLMs 事实正确性方面的效果。我们基于 LlamaIndex 和谷歌搜索 API 搭建了 RAG 系统。结果表明，所有模型在配置 RAG 后准确性都显著提高，例如，Qwen2.5-3B 的性能提升了三倍多。同时，在配置 RAG 后各模型之间的性能差异也显著减少，例如，带有 RAG 的 Qwen2.5-3B 与 Qwen2.5-72B 的 F-score 相差仅 6.9%。这表明 RAG 可显著缩小模型性能差距，使得较小模型在 RAG 支持下也能获得高性能。因此，RAG 仍是增强 LLMs 事实性的一条强有效的捷径。

4. 大部分模型都有明显的 “对齐税” 问题

我们对比分析了预训练模型与对齐后的模型在评测集上的表现。结果显示，尽管不同模型在后期训练后表现各异，但大多数模型的表现都显著下降。其中，Baichuan2 系列模型下降最为明显，Baichuan2-7B 和 Baichuan2-13B 的 F-score 分别下降了 47% 和 28%。这反映出当前大多数大语言模型的对齐训练在幻觉缓解方面仍有明显不足，也突显了评测集的价值。

评测集涵盖 99 个主题和领域，能够全面检测模型在各个领域的知识水平，可以帮助各个领域的研究者识别最适合其特定需求的模型。目前 o1-preview 模型表现最为全面，但是评测结果展示了许多其他模型在特定垂直领域的强有力的表现（具体详见论文和榜单）。

最后，欢迎广大研究者使用我们的评测集进行实验和研究。淘天集团算法技术 - 未来生活实验室团队将持续更新和维护数据集及评测榜单，为中文社区的发展贡献力量。

查看原图 455K