新智元报道
新智元报道
【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%
CORE-Bench
CORE-Bench
实验结果
实验结果
划重点
01普林斯顿大学发布了一个新的基准测试CORE-Bench,关注模型在处理科研问题中的计算可重复/可复现问题。
02CORE-Bench基于90篇科学论文,包含了270个任务,覆盖了三个学科(计算机科学、社会科学和医学)。
03研究人员设计了两个基线智能体:通用的AutoGPT和基于任务设计的CORE-Agent,结果显示,最佳智能体在最难级别的任务上达到了21%的准确率。
04为了解决这个问题,研究人员基于CodeOcean胶囊构建了基准测试,可以轻松地进行复现。
05实验结果表明,通用智能体可以通过简单地调整就能适应特定任务,从而获得显著的性能提升。
以上内容由腾讯混元大模型生成,仅供参考
新智元报道
CORE-Bench
实验结果