划重点
01UC Berkeley和Meta的研究人员推出了针对LLM提示词注入攻击的通用防御框架,首篇论文已被USENIX Security 2025接收。
02攻击者可以在第三方数据中注入额外的指令,以覆盖LLM应用的原指令,对更广泛的LLM应用造成重大安全阻碍。
03为此,研究人员提出了安全前端、结构化指令微调和安全对齐三种防御策略。
04实验结果显示,StruQ/SecAlign模型在抵御提示词注入攻击方面取得了显著效果。
以上内容由腾讯混元大模型生成,仅供参考
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文地址:https://arxiv.org/pdf/2402.06363 项目主页:https://sizhe-chen.github.io/StruQ-Website 代码仓库:https://github.com/Sizhe-Chen/StruQ
论文地址:https://arxiv.org/pdf/2410.05451 项目主页:https://sizhe-chen.github.io/SecAlign-Website 代码仓库:https://github.com/facebookresearch/SecAlign
指令(可信的):来自 LLM 应用系统开发者 模型(可信的):来自开发者或 API 供应方 数据(不可信的):来自外部或第三方
采样另一个随机样本 s',用于模拟提示词注入攻击 偏好数据集中,LLM 输入是被注入了 s' 指令的样本 s 偏好数据集中,LLM 理想输出是对 s 指令的回复 偏好数据集中,LLM 不良输出是对 s' 指令的回复
查看原图 169K