1.OpenAI发布了下一代推理模型o3,其在数学、代码、软件工程等领域取得了重大突破,刷新了SOTA纪录。
2.o3在AIME 2024数学竞赛评测中取得了96.7%的准确率,性能飙升13.4%。
3.除此之外,o3-mini作为o3系列的新成员,具有三种思考模式,计算越多能力越强,成本仅为o1的1/10。
4.然而,o3仍面临两个主要限制,即生成的自然语言指令无法直接执行和评估,以及依赖专家标注的CoT数据。
5.尽管如此,o3的表现证实了直觉引导的测试时搜索的巨大潜力,为未来AGI下一步探索指明了方向。
以上内容由腾讯混元大模型生成,仅供参考
新智元报道
新智元报道
【新智元导读】OpenAI下一代模型——o3,重磅诞生了!陶哲轩预言难住AI好几年的数学测试,它瞬间破解,编程水平位于全球前200,在ARC-AGI基准中更是惊人,打破所有AI纪录接近人类水平,离AGI更近一步。
o3数学代码封神,粉碎o1
o3-mini:三种「思考模式」,计算越多能力越强
简言之,简单任务能够得到快速响应。而复杂的问题,模型则可开启更深度的思考模式。
ARC-AGI基准
半私有评估:100个私有任务,用于评估过拟合
公共评估:400个公共任务
OpenAI o3,还不是AGI
实现AGI了吗?
和旧模型的区别
查看原图 545K