--- title: "OpenAI 推「PaperBench」测试 证最强 AI Agent 未超越人类" description: "OpenAI 于昨日推出全新基准测试「PaperBench」,旨在评估 AI Agent 复制顶尖 AI 研究的能力。测试结果显示,即使是最先进的 AI 模型,表现也未能超越人类基准线。PaperBench 要求 AI Agent 从零开始复制 20 篇 ICML 2024 会议的论文,结果显示表现最佳的 AI Agent 仅达 21% 的复制分数。OpenAI 已开源相关代码,以促进对 AI A" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/234314311.md" published_at: "2025-04-03T02:41:26.000Z" --- # OpenAI 推「PaperBench」测试 证最强 AI Agent 未超越人类 > OpenAI 于昨日推出全新基准测试「PaperBench」,旨在评估 AI Agent 复制顶尖 AI 研究的能力。测试结果显示,即使是最先进的 AI 模型,表现也未能超越人类基准线。PaperBench 要求 AI Agent 从零开始复制 20 篇 ICML 2024 会议的论文,结果显示表现最佳的 AI Agent 仅达 21% 的复制分数。OpenAI 已开源相关代码,以促进对 AI Agent 工程能力的研究。 OpenAI 于昨日(2 日)宣布推出全新基准测试「PaperBench」,旨在评估 AI Agent 复制顶尖 AI 研究的能力,结果显示即使最先进模型仍未超越人类基准线。 PaperBench 要求 AI Agent 从零开始复制 20 篇于 ICML 2024 会议上发表的 Spotlight 和 Oral 论文,包括理解论文核心贡献、独立开发代码库及成功执行相关实验。为确保评估公正客观,研究团队设计了层级化评分标准,将每项复制任务分解为 8,316 个可独立评分的子任务。 OpenAI 表示,所有评分标准均与原论文作者共同制定,以确保评估的准确性和实用性。团队同时开发了基于大型语言模型的评判系统,能够自动对 AI Agent 的复制尝试进行评分。 测试结果显示,目前表现最佳的 AI Agent,由 Anthropic 开发的 Claude 3.5 Sonnet(新版本),平均复制分数仅达 21%。研究团队亦邀请顶尖机器学习博士生完成相同测试,结果表明 AI 模型尚未能超越人类专家在研究复制方面的能力。目前 OpenAI 已开源相关代码,以促进业界对 AI Agent 工程能力的进一步研究。 ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | Sam Altman And Dario Amodei Stir Controversy At India AI Summit Amid Photo-Op Gesture— OpenAI CEO Says 'I Just Wasn't Sure...' | At the India AI Impact Summit, OpenAI CEO Sam Altman and Anthropic CEO Dario Amodei stirred controversy by opting out of | [Link](https://longbridge.com/zh-CN/news/276431749.md) | | After AMD, OpenAI Partners With Tata To Build Massive 1GW AI Data Center In India | OpenAI has partnered with Tata Group and Tata Consultancy Services to develop a large-scale AI data center in India, wit | [Link](https://longbridge.com/zh-CN/news/276304570.md) | | OpenAI expands agentic commerce push | By embedding structured product data and checkout flows directly into ChatGPT, OpenAI is seeking to position AI as the f | [Link](https://longbridge.com/zh-CN/news/276071558.md) | | Chinese tech companies progress 'remarkable,' OpenAI's Altman tells CNBC | OpenAI's Sam Altman praised the rapid progress of Chinese tech companies in AI during an AI summit in New Delhi. He note | [Link](https://longbridge.com/zh-CN/news/276315901.md) | | Altman and Amodei share a moment of awkwardness at India’s big AI summit | At the India AI Impact Summit, a moment of awkwardness arose when OpenAI's Sam Altman and Anthropic's Dario Amodei did n | [Link](https://longbridge.com/zh-CN/news/276340986.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。