6月7日,在与安远AI联合主办的智源大会“AI安全论坛”上,来自MIT、清华、复旦、人大、智源、多伦多大学、新加坡管理大学、Redwood Research、瑞莱智慧和安远AI 的学者与技术专家同台,以“AI安全”为核心议题,从主旨报告,圆桌讨论等环节,讨论了AI的潜在机遇与风险、如何将“安全前置”写入技术路线图等。
首先,论坛主席、智源研究院前理事长张宏江致开幕辞。他提到,随着大模型能力的快速提升和AI应用的日益深入,AI安全问题已成为关乎人类未来的关键议题。正如大会开幕式上Yoshua Bengio教授所强调的,避免AI智能体带来的灾难性风险,是AGI发展过程中不可忽视的重中之重。
智源研究院自成立以来,始终高度重视人工智能安全与治理。近年来,智源积极推动AI安全技术的国际合作,包括在2023年智源大会上与Geoffrey Hinton、Sam Altman等顶尖学者展开深度对话,并于2024年3月组织召开“北京AI安全国际对话”,促成《北京AI安全国际共识》,首次划定AI安全六条红线。这些努力凸显了AI安全不仅是政策问题,更是技术挑战——从模型对齐、越狱风险到欺骗性行为,亟需学术界与产业界共同攻克。Bengio教授作为深耕AI领域40余年的先驱,以其深刻洞察呼吁全球关注AI潜在风险,并推动技术层面的解决方案。当前,我们比任何时候都更需要国际合作,以应对AGI可能带来的共同挑战。也期待期待通过论坛的交流,能激发更多学术研究、技术投入和政策关注,共同守护AI发展的安全底线。
主题报告环节中,多Tegan Maharaj
Buck Shlegeris
Max TegmarkTegan Maharaj
Q1
谢旻希《北京AI安全国际共识》
Q2
谢旻希
Q3
谢旻希:如何从社会技术角度看待一系列解决人工智能安全风险的方法?
Q4
谢旻希:尽管伴随着风险,可以简单谈谈对未来AI发展的乐观展望?
“”
“
复旦大学计算与智能创新学院副研究员、上海创智学院全时导师潘旭东带来了题为《前沿
SAIF
Redwood
AI Control
Buck Shlegeris
Q1
段雅文:
Q2
段雅文:王希廷老师,您是大数据模型的神经科学领域的专家,您在最近的研究中安全概念上的启动因素揭露了通过可传输的提示和输入,对齐的模型甚至都可以被系统性地操纵。这一点说明了当前对齐方法面临哪些挑战?可解释性工具又是如何助力构建更安全的系统的?
Q3
段雅文:田天博士,您和您的团队都在研究前沿模型的攻击和防御模式。去年您的团队基于内省推理框架深入研究DeepSeek R1模型的保护措施。您在这些工作中学到了什么经验,还有您觉得当我们将这些保护措施应用在更有能力的模型时,我们会面对什么新的问题?
Q4
段雅文:Buck,您和您的团队在第二线防卫方面以保持AI安全,即使对齐技术失败。在您最近的实验的AI控制报告中,您使用了被信任的GPT-3.5 来监控和不被信任的GPT-4来生成代码。我想请问您关于协议的有效性和局限性学到了什么以及如果我们面临更多的自主性和欺骗性的AI系统,我们会有什么样的挑战?
Q5
段雅文:孙军教授,您的研究联系了形式化方法和AI安全,目的是让AI输出符合安全标准并且
Q6
段雅文:这部分想和四位嘉宾一起探讨一下,你们认为AI安全有哪些被低估领域需要更多人来研究的?为什么?
Q7
段雅文:我还有一个最后的问题给四位嘉宾,在几句话内,你会推荐哪一种安全的最佳实践或者技术让每个还没有做的前沿模型公司实施在他们的模型上?
(State of AI Safety in China)