先别炸裂炸场!OpenAI的o3会是AGI吗?|AI新大陆

图片


封面:AI 人形机器人

CyberDaily

哪天大公司都不招程序员了,值得注意



01.12天长线直播终于结束了,OpenAI在收尾阶段跳过o2,直接推出o3模型,被称为接近或达到AGI的模型。据评测其在数学、科学(博士等级)等能力上都超越了人类。o3依然是期货,感兴趣可以下方申请;另外推出轻量的模型o3mini,预计明年1月推出。
申请地址:https://openai.com/index/early-access-for-safety-testing/
图片
图片

02.该模型在ARC-AGI-1公共训练集上训练,并在半私人评估集上取得了75.7%的成绩,而在高计算配置下得分为87.5%。
图片

03.ARC Prize发推写到:它是AGI吗?o3在一些非常简单的任务上仍然失败,这表明它与人类智能存在根本差异ARC Prize的目标是成为通向人工通用智能(AGI)的北极星,并计划与OpenAI团队合作,设计下一代、持久的AGI基准。
图片

04.目前评分是有一种总决赛绝杀之感,微软CEO萨蒂亚·纳德拉几天前说OpenAI在AI竞赛中遥遥领先2年。OpenAI内部的研究员也称其在AGI道路上,没有障碍。
图片

05.什么是AGI?业内目前也没有一个基准。
OpenAI此前给到AI进阶的等级。


第 1 级:聊天机器人、具有对话语言的人工智能


这是最基础的阶段,AI具备语言理解和生成的能力,用于对话和交流。
  • 典型应用:聊天机器人(如GPT)、客服助手、自动问答系统。
  • 限制:只能处理特定任务,缺乏更高层次的推理和行动能力。

第 2 级:推理者,人类水平的问题解决


此阶段的AI可以像人类一样进行逻辑推理和解决复杂问题。
  • 典型应用:在科学研究、技术开发、或策略游戏中解决问题。
  • 进步点:从简单的对话生成转向人类水平的认知和推理。

第三级:代理,可以采取行动的系统


AI不再只是提供建议,而是能够根据环境和任务要求采取行动。
  • 典型应用:自动驾驶、机器人执行任务、自动化业务流程。
  • 意义:引入了自主决策和执行能力,体现更强的智能化。

第四级:创新者,可以帮助发明的人工智能


AI进入了创新阶段,能够辅助人类进行发明和创造性工作。
  • 典型应用:药物研发、材料设计、技术创新。
  • 特点:超越现有知识框架,推动科学和技术的突破。

第五级:组织,可以完成组织工作的人工智能
这是最高阶段,AI可以替代甚至管理整个组织的运作。
  • 典型应用:完全自动化的企业、政府服务系统、全自主管理的生产设施。
  • 潜力:极大地提高效率,但也涉及伦理、控制和社会影响等问题。

图片


06.有意思的是,xAI Grok工程师Benjamin De Kraker提供了一个验证AGI是否到来的视角:
只要主要的 AI 公司仍在招聘中级人员 —— 他们确实在招聘 —— AGI 可能还没有出现。
当 xAI、OpenAI、Anthropic 和 Google 的所有职位空缺突然消失时,请注意。
图片

07.另一个不同的声音:O3 无法解决这个问题的事实对我来说很可怕
位置编码可以替代空间智能吗?

08.o3模型目前没有表现对物理世界感知能力或空间智能的体现,意味着,它不具备类人身体特征(以上的评分来自人类智力的挑战),即还不能在物理世界产生影响——如理解现实、感知(触觉、听觉、嗅觉...)、行动(操控机器人执行任务等).....
比如上周谷歌发布的Gemini2.0具备理解现实世界的能力,并展示驱动人形机器人灵巧手叠积木的操作。

09.在这次12天的直播里,没有看到OpenAI今年6月重启机器人模型研究的成果,这是Sam Altman都极力推崇的项目:他在5月11日的一次专访再次强调其对人形机器人的兴奋之情(视频后),甚至多过软机器人。
他认为:“训练人工智能使用要与我们有相同的界面。界面和工作流程都要以人为本。人工智能助手理解体验的细微差别,能够引导我们做出决策并不断给我们反馈,这是很有意义的。仅靠基于文本/语音的体验是无法实现整个体验的。

当人类和人工智能的体验存在于共享界面时,我们和人工智能之间的交互也会变得无缝起来。”

10.o3可能依然还是洞穴的产物。



-未来已来,只是分布不均匀-