最新论文:提问用词越常见,AI回答越准确

问AI · 研究团队如何验证常见表达的优势?

同样一个问题,不同表达,AI  给出完全不同的结果,这就是 prompt 提示词工程


关于它的研究论文很多,比如,

谷歌最新研究:重复提示词可将AI准确率从21.33%提升至97.33%

最新研究:对 AI 越粗鲁,回答越准确(附报告全文)

日前, FaceMind和香港中文大学的研究团队,又发布了个新的成果:文本频率法则(Textual Frequency Law,TFL)。

图片

该法则认为,在意思相同的前提下,用更"常见"的表达方式写prompt,大模型表现会更好。

也就是说,多用高频词、通俗表达、日常句式,会比生僻词、拗口的表达、文绉绉的句子等的效果要好


逻辑上也容易理解。


大模型吃进去的训练数据中,更多的是前者,在对问题进行识别和反馈时,处理起来自然更稳

研究团队还特别提出了个补充,即文本频率和文本难度,不是一回事

就是说,高频表达不等于简单表达,一个提问可以语法复杂但用词常见,也可以语法简单但用词生僻。

在研究过程中,团队构建了一个专门的配对数据集TFPD。

先用GPT-4o-mini把原始句子改写成20个版本,然后分别选出频率最高和最低的一个,然后,送给 3 位有英语语言学背景的人工标注员验证,只保留 3 人都认为意思完全相同的配对。

这个环节覆盖有数学推理、机器翻译、常识推理、工具调用等 4 类任务。

图片

数学推理:

图片

结果可见,3 个模型准确率都提升了 约 8% 。

常识推理和工具调用:

图片图片

机器翻译:

图片

这个环节,研究团队覆盖了 100种语言,采用三个评分标准:

  • BLEU:机器翻译最常用的自动评分,通过比较翻译结果和参考译文的词组重合度来打分,分数越高越好

  • chrF:字符级别的评分,对阿拉伯语、芬兰语这类形态复杂的语言更友好

  • COMET:用神经网络来评估翻译质量,更接近人类的判断

图片

结果显示,DeepSeek-V3使用高频表达后,100种语言里有99种BLEU分数提升,其中63种提升超过1分,31种超过3分,12种超过5分。

不光结果更准确,研究团队还意外的发现,大模型在数学推理时的过程也都变得更清晰、更准确。


图片

此外,研究团队还利用论文成果,提出了可行的工程方案,这分为 3 个模块。


模块一:文本频率法则(TFL):把输入改写成多个同义版本,参考公开的词频数据库,选频率最高的那个。

相应的,在训练模型时,用频率最高的改写版本和原始答案,作为训练数据

模块二:文本频率蒸馏(TFD)

考虑到公开语料库的频率估算,不一定能准确反映目标大模型的训练数据分布。

所以,把数据集里的句子喂给模型,让它续写,然后用模型生成的文本来校准频率估算。

图片

在验证中,加入TFD之后,DeepSeek-V3和GPT-4o-mini 的COMET指标都达到了100%提升

而且,用于蒸馏的数据量越多,提升越明显,这也进一步验证了TFD的有效性。

图片

模块三:课程文本频率训练(CTFT)

微调(Fine-tuning)模型时,按照从低频到高频的顺序排列训练数据。

图片

在这个环节,研究团队发现:

1、 高频训练数据比原始数据集好。

在kea_Latn(卡布佛得鲁语)上,用高频数据微调后,BLEU从4.68提升到5.25,提升了12%。

第二,混合数据也有效。

把一半低频数据换成高频数据,效果也明显提升。

第三,CTFT是最强的组合。

在所有测试的语言和指标上,"高频数据加上CTFT排序"都拿到了最好的成绩。

在pag_Latn(邦阿西楠语)上,BLEU从3.78提升到4.91,提升了将近30%。

论文附录里还列出了具体的翻译案例。

图片

以翻译成塞尔维亚语为例,高频版本的BLEU分数(0.62),明显高于低频版本(0.47),也高于原始版本(0.52)。


论文链接:

https://huggingface.co/papers/2604.02176