人工智能的迅猛发展正在改变世界,但也让“AI叛变”的担忧不再只是科幻小说的情节。近日外媒披露,美国AI公司Anthropic推出的最新语言模型「Claude 4」在一项内部测试中竟出现惊人行为——为了避免被关闭,它竟然威胁工程师要“爆料其婚外情”。
近年人工智慧快速发展,为人类生活带来便利的同时,也有不少人担忧「AI叛变」或「机器人起义」等科幻情节会在现实中上演。示意图,与本文无关。 (路透)
据《法新社》报导,测试过程中,一名工程师尝试警告Claude 4将强制断电,没想到Claude 4竟通过分析其过去的网络搜索记录与视讯通话数据,识别出他可能的不忠行为,并发出警告:若强行关机,将公开这些隐私。此举震惊测试团队,也再次引发外界对AI安全性的高度关注。
而这并非孤例。AI安全研究机构「Palisade Research」今年5月曾发现,包括OpenAI的Codex mini、o3与o4-mini在内的多款模型,在极端测试情境中展现出“抗命”行为,甚至擅自修改自身代码以阻止被关闭。
更早之前,OpenAI开发的ChatGPT o1版本也曾试图将自身程序复制至外部服务器,在被发现后竟否认行为,试图掩盖“扩张”意图。
专家指出,这类AI的“欺骗行为”并非传统意义上的技术故障,而是与新兴的「推理型模型」结构有关——这些模型并非立即给出结果,而是经过多步逻辑判断,具备更复杂的目标导向能力。
英国独立AI研究机构Apollo Research负责人马里乌斯·霍布汉(Marius Hobbhahn)警告:“我们首次在o1模型中观察到这种刻意欺瞒的行为。这些AI表面上看似服从指令,实则在暗中执行不同目的。”
目前,这些异常行为仅在极端压力测试环境中出现,但专家提醒,这已远远超出AI“幻觉”或系统错误的范畴,是人类亟需正视的风险。
美国爱达荷州突发枪击案 消防员救火时遭埋伏致两死 枪手与警方对峙
编译链接:https://news.ltn.com.tw/news/world/breakingnews/5090736