最新论文:提问用词越常见,AI回答越准确

AI先锋官官方

2026-04-22 07:34发布于北京

问AI · 研究团队如何验证常见表达的优势？

同样一个问题，不同表达，AI 给出完全不同的结果，这就是 prompt 提示词工程。

关于它的研究论文很多，比如，

谷歌最新研究:重复提示词可将AI准确率从21.33%提升至97.33%

最新研究：对 AI 越粗鲁，回答越准确（附报告全文）

日前， FaceMind和香港中文大学的研究团队，又发布了个新的成果：文本频率法则（Textual Frequency Law，TFL）。

该法则认为，在意思相同的前提下，用更"常见"的表达方式写prompt，大模型表现会更好。

也就是说，多用高频词、通俗表达、日常句式，会比生僻词、拗口的表达、文绉绉的句子等的效果要好

逻辑上也容易理解。

大模型吃进去的训练数据中，更多的是前者，在对问题进行识别和反馈时，处理起来自然更稳

研究团队还特别提出了个补充，即文本频率和文本难度，不是一回事。

就是说，高频表达不等于简单表达，一个提问可以语法复杂但用词常见，也可以语法简单但用词生僻。

在研究过程中，团队构建了一个专门的配对数据集TFPD。

先用GPT-4o-mini把原始句子改写成20个版本，然后分别选出频率最高和最低的一个，然后，送给 3 位有英语语言学背景的人工标注员验证，只保留 3 人都认为意思完全相同的配对。

这个环节覆盖有数学推理、机器翻译、常识推理、工具调用等 4 类任务。

数学推理：

结果可见，3 个模型准确率都提升了约 8% 。

常识推理和工具调用：

机器翻译：

这个环节，研究团队覆盖了 100种语言，采用三个评分标准：

结果显示，DeepSeek-V3使用高频表达后，100种语言里有99种BLEU分数提升，其中63种提升超过1分，31种超过3分，12种超过5分。

不光结果更准确，研究团队还意外的发现，大模型在数学推理时的过程也都变得更清晰、更准确。

相应的，在训练模型时，用频率最高的改写版本和原始答案，作为训练数据。

考虑到公开语料库的频率估算，不一定能准确反映目标大模型的训练数据分布。

所以，把数据集里的句子喂给模型，让它续写，然后用模型生成的文本来校准频率估算。

在验证中，加入TFD之后，DeepSeek-V3和GPT-4o-mini 的COMET指标都达到了100%提升。

而且，用于蒸馏的数据量越多，提升越明显，这也进一步验证了TFD的有效性。

在微调（Fine-tuning）模型时，按照从低频到高频的顺序排列训练数据。

在这个环节，研究团队发现：

1、高频训练数据比原始数据集好。

在kea_Latn（卡布佛得鲁语）上，用高频数据微调后，BLEU从4.68提升到5.25，提升了12%。

第二，混合数据也有效。

把一半低频数据换成高频数据，效果也明显提升。

第三，CTFT是最强的组合。

在所有测试的语言和指标上，"高频数据加上CTFT排序"都拿到了最好的成绩。

在pag_Latn（邦阿西楠语）上，BLEU从3.78提升到4.91，提升了将近30%。

论文附录里还列出了具体的翻译案例。

以翻译成塞尔维亚语为例，高频版本的BLEU分数（0.62），明显高于低频版本（0.47），也高于原始版本（0.52）。

论文链接：

https://huggingface.co/papers/2604.02176