始智AI wisemodel.cn开源社区
数据集地址:https://wisemodel.cn/datasets/renqibing/SafeMTData
01
多轮攻击下的“失效”
最后,研究人员基于ActorAttack开源了第一个多轮对话安全对齐数据集。使用多轮对话数据集微调的AI,极大提升了其应对多轮攻击的鲁棒性。
02
社科理论启发的安全视角
03
自动大规模的发现攻击线索
04
更高效和多样攻击的实现
05
首个多轮对话安全数据集
编辑:成蕴年
划重点
01上海交大和上海人工智能实验室的论文揭示了AI大模型在多轮对话场景下的安全风险。
02开源了第一个多轮安全对齐数据集,已上线始智AI wisemodel开源社区。
03研究人员受拉图尔的行动者网络理论启发,设计了多轮攻击算法ActorAttack。
04实验结果显示,ActorAttack在Llama、Claude、GPT等大模型上取得了80%左右的攻击成功率。
05由于此,研究人员提升了AI模型应对多轮攻击的鲁棒性,为提升人机交互的安全可信迈出了坚实的一步。
以上内容由腾讯混元大模型生成,仅供参考
始智AI wisemodel.cn开源社区
数据集地址:https://wisemodel.cn/datasets/renqibing/SafeMTData
01
多轮攻击下的“失效”
最后,研究人员基于ActorAttack开源了第一个多轮对话安全对齐数据集。使用多轮对话数据集微调的AI,极大提升了其应对多轮攻击的鲁棒性。
02
社科理论启发的安全视角
03
自动大规模的发现攻击线索
04
更高效和多样攻击的实现
05
首个多轮对话安全数据集
编辑:成蕴年