新智元报道
新智元报道
【新智元导读】Ilya两年前观点,竟被Nature论文反驳了!来自剑桥大学等团队最新研究发现,所有大模型并不可靠,包括最强o1。
2022年,AI大牛Ilya Sutskever曾预测:「随着时间推移,人类预期和AI实际表现差异可能会缩小」。
然而,一篇最新发表在Nature上的研究表明,事实并非如此!
- LLM&人类无法保持一致:人类认为复杂的任务,LLM轻易解决;而对人类小菜一碟的问题,LLM却失败了。 - LLM不会「回避」复杂任务,而是强撑面子费力思考半天,最终仍旧答错。 - 提示工程,无法挽救LLM的不可靠。
LLM并不可靠
1. 难度(不)一致性
2. 任务回避
复杂任务一举攻破,简单任务错误百出
太过自信,不会硬答
提示词,不通用
作者介绍
他称自己大部分时间都在思考:
(1)设计具有解释和预测能力的稳健评估方法,以评估AI的能力、局限性和风险;
补充评测