OpenAI 推出 MLE-bench：o1 狂揽 7 枚金牌，超越人类 Kaggle 大师

AI寒武纪

2024-10-11 06:49发布于江苏

OpenAI 今天发布了一个名为 MLE-bench 的基准测试，专门用来测试 AI Agent 的机器学习工程能力！这是要让 AI 自己训练模型、准备数据集、跑实验的节奏吗？！🤯

MLE-bench 是一个离线的 Kaggle 竞赛（机器学习比赛）环境，包含 75 个来自 Kaggle 的机器学习工程相关的竞赛任务，涵盖了自然语言处理、计算机视觉、信号处理等多个领域

AI Agent 在这个环境中就像参加真实的 Kaggle 竞赛一样，需要理解比赛描述、处理数据集、训练模型、提交结果，最终根据排行榜上的得分来评估其能力

他们想要一个更全面的基准测试来评估 AI Agent 在自动机器学习工程方面的进展，并将其与人类水平进行比较。毕竟，如果 AI 真的能自主完成机器学习工程任务，那将极大地加速科学进步！🚀

挑战性： 选择的任务必须具有挑战性，能够代表当代机器学习工程工作的实际水平，能够反映真实世界中机器学习工程师的工作内容

可比性： 要能够将评估结果与人类水平进行比较

真实性： 竞赛任务都来自真实的 Kaggle 竞赛，涵盖了各种领域和难度级别，奖金总额超过 194 万美元！

为了找到最佳的Agent“脚手架”（scaffolding，指 AI Agent 的执行框架，模型负责推理，预测），OpenAI 的研究人员使用了三种开源框架：

1.AIDE： AIDE 是一个 LLM 代理框架，它仅根据任务的自然语言描述即可为机器学习任务生成解决方案，专为kaggle设计

2.ResearchAgent (MLAB)： 来自 MLAgentBench，通用型框架

3.CodeActAgent (OpenHands)： 来自 OpenHands 平台，通用型框架

他们用 GPT-4o 模型在这三种框架上进行了测试，并对每个框架进行了微调以提高其在基准测试中的性能。

结果显示:

GPT-4o + AIDE 的组合表现最佳，平均获得的奖牌数量最多 (8.7%)，远远超过了 MLAB (0.8%) 和 OpenHands (4.4%)

这并不奇怪，毕竟 AIDE 是专门为 Kaggle 竞赛设计的，而其他两个框架是通用型的，术业有专攻嘛！😎

接下来，OpenAI 的研究人员用 AIDE 框架测试了不同的 LLM 模型：

结果显示:

o1-preview 在 16.9% 的竞赛中获得了奖牌，几乎是第二名（GPT-4o，8.7%）的两倍，是Meta Llama3.1 405b 的5倍，也是claude 3.5的2倍

更令人印象深刻的是，o1-preview 平均获得了 7 枚金牌，而成为 Kaggle 大师只需要 5 枚金牌！ 这实力还是不错的！

OpenAI 的 o1 模型，果然名不虚传！ 看来，在 AI Agent 领域，OpenAI 依然是当之无愧的王者！👑

多次尝试可以显著提高性能： 例如，o1-preview 的得分从 pass@1 的 16.9% 提高到 pass@8 的 34.1%

GPT-4o 在 24 小时内完成每个比赛的得分率为 8.7%，但在 100 小时内则为 11.8%

AI Agent 的优势在于解决那些有成熟解决方案的竞赛， 但在调试问题和从错误中恢复方面还有待提高

更关键的是，实验结果表明：

仅仅增加推理计算量，并不能显著提高模型的性能。o1-preview 的优异表现主要得益于先进的强化学习技术和更有效的搜索方法，这突出了算法创新的重要性

数据污染： 由于数据集来自公开的 Kaggle 竞赛，模型可能已经接触过这些数据，导致评估结果存在偏差。OpenAI 的研究人员尝试了混淆比赛描述的方法来减少数据污染的影响，但效果并不显著

覆盖范围： MLE-bench 中的任务并不能完全覆盖 AI 研发所需的所有能力，例如，它没有包含那些问题陈述不明确、数据集不清晰或缺乏明确评估指标的任务

与真实竞赛的差异： MLE-bench 使用了不同的训练集/测试集划分，并重新实现了评分代码，这可能会导致与 Kaggle 排行榜上的分数存在差异

资源密集型： MLE-bench 需要大量的计算资源和时间才能运行，这限制了它的可及性

OpenAI 已经开源了 MLE-bench 的代码 (github.com/openai/mle-bench/)，并鼓励其他研究人员开发更多针对自动化机器学习研究能力的评估方法

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～

👇👇

查看原图 989K