<div id="readability-page-1"><div> <figure> <img src="https://imageproxy.pbkrs.com/https://image.stheadline.com/f/680p0/0x0/100/none/3b8d6ca764f46232f057818eb8cec5ec/stheadline/inewsmedia/20250403/_2025040310314181433.jpg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="680" height="384" original-src="https://imageproxy.pbkrs.com/https://image.stheadline.com/f/680p0/0x0/100/none/3b8d6ca764f46232f057818eb8cec5ec/stheadline/inewsmedia/20250403/_2025040310314181433.jpg"/> <figcaption>OpenAI 推「PaperBench」测试 证最强 AI Agent 未超越人类</figcaption> </figure>   <p>OpenAI 于昨日（2 日）宣布推出全新基准测试「PaperBench」，旨在评估 AI Agent 复制顶尖 AI 研究的能力，结果显示即使最先进模型仍未超越人类基准线。</p> <p>PaperBench 要求 AI Agent 从零开始复制 20 篇于 ICML 2024 会议上发表的 Spotlight 和 Oral 论文，包括理解论文核心贡献、独立开发代码库及成功执行相关实验。为确保评估公正客观，研究团队设计了层级化评分标准，将每项复制任务分解为 8,316 个可独立评分的子任务。  </p> <p>OpenAI 表示，所有评分标准均与原论文作者共同制定，以确保评估的准确性和实用性。团队同时开发了基于大型语言模型的评判系统，能够自动对 AI Agent 的复制尝试进行评分。  </p> <p>测试结果显示，目前表现最佳的 AI Agent，由 Anthropic 开发的 Claude 3.5 Sonnet（新版本），平均复制分数仅达 21%。研究团队亦邀请顶尖机器学习博士生完成相同测试，结果表明 AI 模型尚未能超越人类专家在研究复制方面的能力。目前 OpenAI 已开源相关代码，以促进业界对 AI Agent 工程能力的进一步研究。</p>  </div></div>

OpenAI

<p>OpenAI 于昨日推出全新基准测试「PaperBench」，旨在评估 AI Agent 复制顶尖 AI 研究的能力。测试结果显示，即使是最先进的 AI 模型，表现也未能超越人类基准线。PaperBench 要求 AI Agent 从零开始复制 20 篇 ICML 2024 会议的论文，结果显示表现最佳的 AI Agent 仅达 21% 的复制分数。OpenAI 已开源相关代码，以促进对 AI Agent 工程能力的研究。</p>

OpenAI 推「PaperBench」测试 证最强 AI Agent 未超越人类

OpenAI 推「PaperBench」测试证最强 AI Agent 未超越人类