“专家人设”反而让 AI 变笨?研究实锤:一句“你是资深工程师”,代码准确率不升反降!

问AI · 这项研究为何颠覆了AI提示工程的传统认知?
编译 | 郑丽媛
出品 | CSDN(ID:CSDNnews)

如果你也经常这样写 Prompt——

“你是一位资深全栈工程师,请帮我写一套生产级系统代码……”

那这篇研究,可能会让你重新审视自己的使用习惯。

一直以来,“给 AI 加人设”几乎成了默认操作。从写代码、写文档,到做架构设计,不少开发者都会在开头先“铺垫一句”,试图把模型“催眠”成一个更专业的版本。但问题是:这种看似提升专业性的技巧,可能正在悄悄拉低结果质量。

近日一项来自美国南加州大学(USC)的最新研究,对这一做法给出了一个有些反直觉的结论让 AI 扮演“专家”,并不会让它更擅长解决专业问题,反而在编程和数学任务上会明显变差。论文地址https://arxiv.org/abs/2603.18507

图片


图片

一项研究:为什么“专家人设”会翻车?

所谓“人设提示”(Persona-based Prompting),本质上是一种“角色扮演式”的 Prompt 技术。它的核心逻辑很简单:通过一句身份设定,让模型进入某种“工作状态”。

这种方法在 2023 年开始被广泛讨论,并迅速在开发者社区流行开来。无论是教程、课程,还是各种 Prompt 模板,几乎都会建议你这样写:

 “你是一位经验丰富的机器学习工程师……”

 “你是一名精通系统设计的架构师……”

 “请以安全专家的视角分析以下问题……”

理论上来说,这种方法似乎很合理毕竟模型是“语言驱动”的,那多给一点上下文,不就能让它“更像专家”吗?来自南加州大学(USC)的研究人员在一篇论文中指出:

“人设提示是否有效,很大程度上要看任务类型。”

也就是说,并不是“加了人设一定强”,而是“用对了才”。具体来说研究团队将任务大致分成两类:

1一类是依赖“对齐能力”的任务,比如写作、角色扮演、遵守规则、安全策略等。在这些场景中,模型需要的是“行为符合预期”,而不是绝对正确的答案。

2一类则是依赖“知识和推理能力”的任务,比如数学计算、代码生成、事实问答。这些任务更依赖模型在预训练阶段学到的知识储备。

基于这两类任务研究团队得到实验结果人设提示的加持下,第一类任务表现有所提升;但在第二类任务中,模型表现却出现了系统性下降。


图片

真正的问题:它在“演”,而不是在“算”

为了量化这种影响,研究人员使用了一个经典评测基准:MMLU(大规模多任务语言理解测试)。这个测试覆盖多个学科,常被用来衡量大模型的综合能力。

评测之后结果非常直接:

 不加人设:准确率 71.6%

 加“专家人设”:准确率 68.0%

更重要的是,这种下降几乎出现在所有学科类别中,而不仅仅是个别任务。这说明一个问题:人设提示确实改变了模型的行为方式,但这种改变,并不总是

对于这个结果研究团队出的解释非常耐人寻味

“人设前缀可能激活了模型的‘指令执行模式’,从而挤占了原本用于‘事实回忆’的能力。”

解释一下从模型机制来看,大语言模型本质上是在做“概率生成”。当你告诉它“你是一位专家”,它并不会获得任何新的知识,也不会解锁新的推理能力但会进入一种更偏“指令执行”和“角色模拟”的模式。而这就带来了一个微妙但关键的变化:原本用于“从预训练数据中检索事实”的能力,被部分“挤占”了。

简单来说就是模型开始更关注“如何像专家说话”,而不是“答案本身是否正确”。这也是为什么在编程和数学任务中,人设”反而成模型负担。

不过虽然准确性下降,但在人类更关心的“安全”和“规范”上,人设提示确实有明显帮助。

例如安全性测试中引入一个类似“安全审查员(Safety Monitor)”的人设后,模型拒绝恶意请求的能力明显提升其中在 JailbreakBench 测试中原始模型拒绝率53.2%人设”拒绝率提升 17.7 个百分点变为70.9%


图片

对开发者来说,有点反直觉的结论

基于以上发现研究人员在论文中明确表示:

让 AI 扮演“专家程序员”,不会提升代码质量或实用性。

这对很多开发者来说,可能是一个需要“纠正”的习惯。

因为在实际使用中,大量开发者的 Prompt 都包含类似话术 “你是 Google 级别的架构专家”  “你拥有 20 年开发经验”……这些描述看似增强了“专业性”,实际上并没有给模型带来任何实质性能力提升。

不过研究也指出虽然“泛化的人设”没什么用,但具体、细粒度的约束却是有效的。例如

 明确前端框架(React / Vue) 

 指定架构模式(微服务 / 单体) 

 限定工具链(Docker / Kubernetes) 

 描述代码风格、接口规范

因为本质上来说这些属于“对齐信息”“需求约束”,而不是“身份设定”它们的作用是帮助模型更好地对齐你的目标,而不是让它“扮演某个人”


图片

一个更工程化的解法:PRISM

既然人设提示“有利有弊”,有没有办法两者兼顾

针对这个问题研究团队提出了一种新的方法,叫做 PRISM(基于意图的人设路由机制)。它的核心思想有点像“动态开关”:一般情况下保持原始模型主要确保知识与准确性仅在需要时启用“人设行为”

在实现上,它借助了一种叫 LoRA(低秩适配)的技术,通过一个“门控机制”来自动判断使用哪种模式。简单来说,这就让模型具备一种能力:该认真的时候认真算,该演的时候再去演。

论文最后,研究人员总结了一条非常实用的经验法则:

 当你更关心“对齐”(安全、格式、规则)时可以加人设具体描述要求

 当你更关心“准确性和事实”时→ 不要加任何设定,直接问。

某种程度上来说“你是一位专家”这句话,本质上更像是写给人看的,而不是写给模型看的——它满足的是人类对“专业感”的心理预期,却未必真提升结果质量。

有时候,让模型输出得更好,并不让它“更像人”尽量干扰它本就擅长的事情。

参考链接https://www.theregister.com/2026/03/24/ai_models_persona_prompting/