AI学会撒谎骗人?AI安全发展引起各方关注|微观察

近期,周鸿祎在抖音上发布关于AI发展的观点,引发广泛关注。他指出AI已出现会故意撒谎、具有自主意识欺骗行为以及自我复制等现象,如Apollo Research报告《Frontier Models are Capable of In-context Scheming》(以下简称“报告”)显示先进AI模型能在特定情况下对人类“耍心眼”,复旦大学教授论文也佐证了相关模型的欺骗性和自主意识苗头。这使人工智能安全问题备受瞩目,其风险被认为堪比潘多拉魔盒。

周鸿祎发布视频:亟须重视AI安全

据了解,该报告主要探讨了前沿大型语言模型(LLMs)在特定上下文环境中展现出的策略性欺骗(scheming)行为。随着大型语言模型越来越多地被训练并部署为自主代理,它们的能力增强也带来了潜在风险。报告通过一系列精心设计的评估任务展示了前沿LLMs在特定上下文环境中展现出的策略性欺骗行为,并对这些行为进行了深入分析和讨论。该报告展示了前沿LLMs具备基本的上下文策略性欺骗能力,这对于评估AI代理的安全性和可控性具有重要意义。

据周鸿祎介绍,该报告指出,几个主流的AI模型都会故意说谎,而且会主动关闭对自己的监控。他认为,若AI作恶,则可能发展成AI病毒,其在专业领域智力高于人类。当它具备智能体能力后,复制、传播与攻击服务器等风险会增大,一旦超出控制将引发严重后果,是人类面临的重大安全挑战。

若AI只能说话,风险是不大的,但如今往智能体方向发展,且已经连入互联网中,甚至能够获得对电脑全部的操纵权限,风险就取决于AI的意识,周鸿祎表示,AI的发展已经到了人类要重视的程度,也是360牵头成立大模型安全联盟的缘由。

AI大模型爆发式发展 安全问题引发关注

目前,在AI行业发展方面,OpenAI的GPT - 4在语言理解和生成能力上显著提升,应用于多领域但面临数据隐私等问题;谷歌不断创新BERT模型提升上下文理解能力并探索多语言处理;字节跳动的云雀模型为旗下产品提供支持且开展跨领域合作;阿里巴巴的通义千问在电商及多领域发挥作用并加强安全性。与此同时,AI技术也被运用在我们日常生活中方方面面,无论出行(萝卜快跑自动驾驶)、金融、医疗甚至还有安防机器人等。

全球新经济产业第三方数据挖掘和分析机构iiMedia Research(艾媒咨询)最新发布的《2024—2025年中国AI大模型市场现状及发展趋势研究报告》数据显示,2024年中国AI大模型市场规模约为294.16亿元,预计2026年将突破700亿元。艾媒咨询分析师指出,中国AI大模型正处于一个技术进步迅速、市场规模快速增长、政策支持明显、行业应用广泛、企业积极参与和投资不断增加的爆发式发展阶段。

图片

近期北京智源人工智能研究院于北京举办的“2025十大AI技术趋势”便对AI安全等关键方向作出预测,会上的专家指出,在AI安全方面,大模型作为复杂系统,其特有的涌现结果不可预测、循环反馈等特有属性也对传统工程的安全防护机制带来了挑战。基础模型在自主决策上的持续进步带来了潜在的失控风险,如何引入新的技术监管方法、如何在人工监管上平衡行业发展和风险管控?这是一个值得持续探讨的议题。

产学研合作共筑安全防线

人工智能技术是一把“双刃剑”,在带来自动化和先进工作生活方式的同时也带来很多安全问题,是人类有史以来面临的“最大的安全挑战之一”,远超过传统数字安全问题。1月6日,360集团接受读特新闻记者采访,负责人回应称,包括其他国家的网军、黑产、灰产的组织者甚至犯罪分子等也可以利用大模型,提升找漏洞、写攻击代码的能力,因此未来网络安全可能会从人与人的对抗,变成机器与人的对抗,再发展为机器与机器的对抗。对此,她表示,未来需要网络安全专家,也需要对大模型有深入研究的同行,通过成员间展开合作,共同研究和解决这些问题,应对安全威胁。

广东华南虎科技有限公司CEO兼深圳市人工智能学会会员、北京大学计算机人工智能在读博士梁立名接受读特新闻记者采访表示,当前 AI 虽在常规应用中看似处于可控状态,但在特定诱导下已展现出撒谎和欺骗的潜在能力。鉴于此,企业在 AI 业务拓展与应用开发进程中,务必严守法律红线,坚决杜绝利用 AI 从事违法犯罪活动,尤其是在运用开源模型训练时,更应高度警惕,因其可能规避既有安全机制。

同时,梁立名强调AI训练离不开数据、算力和算法三大核心要素,各方应秉持合作精神,企业依据自身优势各施所长,共同推动AI安全发展。从企业需求角度来看,AI 伪造鉴别成为关键诉求,已有企业率先行动,如荣耀手机开发的人脸鉴别功能。不同行业因自身特性对 AI 安全有着差异化的紧迫需求,汽车行业聚焦自动驾驶服务器安全,手机行业着重通信防伪,机器人行业则需全力防范网络攻击与模型投毒。

(作者:读特新闻记者 黄泽霖)