客户端
游戏
无障碍

0

评论

收藏

分享

手机看

微信扫一扫,随时随地看

OpenAI宣布推出AI Agent评测基准PaperBench

【OpenAI宣布推出AI Agent评测基准PaperBench】财联社4月3日电,美国开放人工智能研究中心(OpenAI)当地时间4月2日宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库并成功执行实验。据介绍,在PaperBench上测试多个前沿模型后发现,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集,发现上述模型表现尚未超越人类基线。
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
想念家乡美食?立即下单GrabFood,快速送达!
广告Grab
了解详情
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部