划重点
01OpenAI发布了新的推理系列模型o3和o3-mini,其中o3是首个突破ARC-AGI基准的AI模型。
02ARC-AGI基准测试中,o3的最低性能可达75.7%,高计算量模式下每个任务需数千美元。
03然而,o3仍有34个任务无法解决,即使思考了16小时也没能给出正确答案。
04其中一个难题是识别二维物体,o3在一维思考的模型中面临挑战。
05OpenAI表示,o3的表现标志着人工智能能力发生了质的转变,但仍与人类智能存在根本差异。
以上内容由腾讯混元大模型生成,仅供参考
机器之心报道
编辑:佳琪、蛋酱
翻车,但微翻,翻了 12.5% 吧。
前几天,OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料,是新的推理系列模型 o3 和 o3-mini 。
从 o1 开始,OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。此次被用来验证 o3 推理能力的基准是 ARC-AGI,这项基准已经提出了 5 年时间,但一直未被攻克。
而新模型 o3 是首个突破 ARC-AGI 基准的 AI 模型:最低性能可达 75.7%,如果让其使用更多计算资源思考更长时间,甚至可以达到 87.5% 的水平。
对于 o1 来说,此前在这项基准中能达到的准确率仅在 25% 到 32% 之间。
在 ARC-AGI 基准中,AI 需要根据配对的「输入 - 输出」示例寻找规律,然后再基于一个输入预测输出。ARC-AGI 发起者、Keras 之父 François Chollet 在测试报告中表示,虽然成本高昂,但仍然表明新任务的性能确实随着计算量的增加而提高。o3 在低计算量模式下每个任务需要 17-20 美元,高计算量模式下每个任务数千美元。但这些数字不仅仅是将暴力计算应用于基准测试的结果。OpenAI 的新 o3 模型代表了人工智能适应新任务的能力的重大飞跃。
「这不仅仅是渐进式的改进,而是真正的突破,标志着与 LLM 之前的局限性相比,人工智能能力发生了质的转变。o3 能够适应以前从未遇到过的任务,可以说在 ARC-AGI 领域接近人类水平的表现。」
比如,对于同一道题,Llama 系列的模型就会因为参数量的提高,从而推测出更加准确的答案。
但大家也注意到了,在 ARC-AGI 的 400 个任务中,还有 34 个任务是 o3 无法解决的,即使思考了 16 小时也没能给出正确答案。正如 François Chollet 所说:「事实上,我认为 o3 还不是 AGI。o3 在一些非常简单的任务上仍然失败,这表明其与人类智能存在根本差异。」
这些任务是什么,难点又在哪里,接下来让我们一起看看。
人们惊讶于 o3 无法解决它(没有看到尝试)。实际上,这些样本可能没有详细说明,并且 o3 的第一个解决方案是正确的。
这个任务是整个数据集中唯一一个模型无法输出网格的样本 —— 在某些列上添加了错误的额外方块。在 ARC 上,使用较小的 LLM 时经常会看到这种情况。
这个题目看似简单,其实很有挑战性。
o3 的第一次尝试就是完全照搬了输入,啥都没改,相当于在答题卡上照抄了一遍题干。
这也能理解,对于一个只能一维思考的模型来说,识别二维物体确实很难。François Chollet 表示,之前就发现过一维推理的局限性,有意思的是,如果在第二次尝试时给大语言模型看旋转或翻转后的题目,它们的表现会明显提升。
这道题主要考验空间思维能力,不像其他题目那样需要对网格做复杂的改动,不过也不影响最后做错的结果......
这次算是一个不错的尝试 —— 虽然还是出了点问题。有意思的是,在输出第二个答案时,o3 虽然做了一堆推理,最后却只是简单画了几条重复的线(这明显不对)。说实话,感觉它就像是「算了算了,我不玩了!」
测试样本比训练样本大得多,这一点很有意思。
可以看到,和标准答案相比,o3 的结果不仅一点边都没沾上,第二次还直接「摆烂了」,交了白卷。
François Chollet 指出:「这恐怕是最不理想的一次测试案例。模型的表现难以解释,o3 似乎在这里直接放弃了尝试。不过还不确定这是否是因为第一次模型已经意识到自己的错误,从而触发了 OpenAI 预设的某种机制。」
每一行都是正确的,但在整个网格上却错位了。
o3 在两个答案中都漏了一些行、列。
o3 对俄罗斯方块类型的题完全没招,我们可以在前面的任务 [1acc24af] 中看到同样的情况。
这两次,o3 都在答案中少生成了一行。看来,它很难记住还有多少相同重复的行要输出。
参考链接:https://x.com/mikb0b/status/1870622741029941545
https://anokas.substack.com/p/o3-and-arc-agi-the-unsolved-tasks