OpenAI发布o1模型新突破:推理时间增强,AI更抗攻击

图片

1月23日消息,OpenAI在今日凌晨发布了一项新技术研究,通过增加推理时间、算力资源来大幅度提升模型的对抗鲁棒性(是指深度学习模型在面对对抗性攻击时能够保持稳定性和准确性的能力)。

OpenAI在o1-preview和o1-mini模型上进行了综合实验,结果表明,随着推理时间计算的增加,攻击成功的概率通常会显著下降,甚至接近于零。在实验中,这些模型成功防御了多种攻击方法,包括Many-shot攻击、Soft Token攻击和Human Red-teaming攻击等。

这项研究的意义在于,它提供了一种不依赖于对抗训练的防御方法。模型在推理阶段通过增加计算资源,能够更好地抵御未知的攻击类型,仍能保持正确和安全的输出。这对于模型在高风险场景(例如,自动驾驶、医疗诊断、金融决策等)的实际应用中至关重要。

对抗攻击一直是人工智能领域的重大挑战之一。自2014年研究人员发现微小的图像扰动可以导致模型误分类以来,这一问题始终困扰着人工智能的发展。随着人工智能模型越来越多地应用于高风险场景,对抗攻击的防御问题变得更加紧迫。然而,尽管过去十年间有超过9000篇相关论文发表,但防御对抗攻击的进展仍然有限。

研究还指出,目前对模型推理时间计算的控制还不够完美,攻击者有时可以欺骗模型无效使用计算资源,未来的研究方向可能包括如何让模型更“明智”地使用其分配的计算资源。(腾讯科技特约编译无忌)