OpenAI推出AI Agent评测基准PaperBench
《OpenAI推出AI Agent评测基准PaperBench》相关软件官网
OpenAI 团队推出了一个名为 PaperBench 的基准测试,旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议(ICML)中的重点和口头论文,整个过程涉及理解论文贡献、开发代码库以及成功执行实验。
为确保评估的客观性,研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务,并设定明确的评分标准。PaperBench 一共包含8316个可以单独评分的任务,所有评分量规均与每篇论文的作者合作开发,以保证其准确性和真实性。
为了实现大规模评估,研究团队还开发了一种基于大型语言模型(LLM)的自动评分系统。这一系统能够根据预设的评分标准对 AI 代理的复制尝试进行评分,同时,团队也为该评分系统建立了独立的基准,以评估其性能。
在对多个前沿 AI 模型进行评测后,研究发现表现最佳的代理是 Claude3.5Sonnet(新版本),其平均复制得分为21.0%。为了进一步验证这些结果,研究人员还邀请了多位顶尖的机器学习博士生尝试 PaperBench 的部分任务,结果显示,目前的 AI 模型尚未超越人类的复制能力。
为了推动后续研究,OpenAI 团队决定将其开发的代码开源,以便更多的研究者能够利用这一平台,深入探索 AI 代理的工程能力及其在复制 AI 研究方面的潜力。
项目代码:https://github.com/openai/preparedness/tree/main/project/paperbench
OpenAI推出AI Agent评测基准PaperBench
OpenAI 近日推出了全新的 AI Agent 评测基准 PaperBench,旨在评估 AI 智能体复现前沿 AI 研究的能力。以下是关键信息总结:
1. 评测内容与目标
任务要求:AI Agent 需要从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库并成功执行实验。
评分标准:OpenAI 设计了 8,316 个可单独评分的任务,涵盖论文理解、代码实现和实验执行等多个维度,确保评测全面且细致。
目标:衡量 AI 在科研复现方面的自动化能力,推动 AI Agent 在学术研究中的应用。
2. 评测结果
Claude 3.5 Sonnet 表现最佳,平均复现得分为 21.0%,但仍远低于人类水平。
其他模型表现:
GPT-4o 系列(如 o1)得分为 13.2%。
DeepSeek-R1 仅 6%。
GPT-4o Mini-High 表现最差。
发表评论