---
title: "OpenAI 推「PaperBench」测试 证最强 AI Agent 未超越人类"
description: "OpenAI 于昨日推出全新基准测试「PaperBench」，旨在评估 AI Agent 复制顶尖 AI 研究的能力。测试结果显示，即使是最先进的 AI 模型，表现也未能超越人类基准线。PaperBench 要求 AI Agent 从零开始复制 20 篇 ICML 2024 会议的论文，结果显示表现最佳的 AI Agent 仅达 21% 的复制分数。OpenAI 已开源相关代码，以促进对 AI A"
type: "news"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/234314311.md"
published_at: "2025-04-03T02:41:26.000Z"
---

# OpenAI 推「PaperBench」测试 证最强 AI Agent 未超越人类

> OpenAI 于昨日推出全新基准测试「PaperBench」，旨在评估 AI Agent 复制顶尖 AI 研究的能力。测试结果显示，即使是最先进的 AI 模型，表现也未能超越人类基准线。PaperBench 要求 AI Agent 从零开始复制 20 篇 ICML 2024 会议的论文，结果显示表现最佳的 AI Agent 仅达 21% 的复制分数。OpenAI 已开源相关代码，以促进对 AI Agent 工程能力的研究。

OpenAI 于昨日（2 日）宣布推出全新基准测试「PaperBench」，旨在评估 AI Agent 复制顶尖 AI 研究的能力，结果显示即使最先进模型仍未超越人类基准线。

PaperBench 要求 AI Agent 从零开始复制 20 篇于 ICML 2024 会议上发表的 Spotlight 和 Oral 论文，包括理解论文核心贡献、独立开发代码库及成功执行相关实验。为确保评估公正客观，研究团队设计了层级化评分标准，将每项复制任务分解为 8,316 个可独立评分的子任务。

OpenAI 表示，所有评分标准均与原论文作者共同制定，以确保评估的准确性和实用性。团队同时开发了基于大型语言模型的评判系统，能够自动对 AI Agent 的复制尝试进行评分。

测试结果显示，目前表现最佳的 AI Agent，由 Anthropic 开发的 Claude 3.5 Sonnet（新版本），平均复制分数仅达 21%。研究团队亦邀请顶尖机器学习博士生完成相同测试，结果表明 AI 模型尚未能超越人类专家在研究复制方面的能力。目前 OpenAI 已开源相关代码，以促进业界对 AI Agent 工程能力的进一步研究。

### Related Stocks

- [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md)

## Related News & Research

| Title | Description | URL |
|-------|-------------|-----|
| Sam Altman And Dario Amodei Stir Controversy At India AI Summit Amid Photo-Op Gesture— OpenAI CEO Says 'I Just Wasn't Sure...' | At the India AI Impact Summit, OpenAI CEO Sam Altman and Anthropic CEO Dario Amodei stirred controversy by opting out of | [Link](https://longbridge.com/zh-CN/news/276431749.md) |
| After AMD, OpenAI Partners With Tata To Build Massive 1GW AI Data Center In India | OpenAI has partnered with Tata Group and Tata Consultancy Services to develop a large-scale AI data center in India, wit | [Link](https://longbridge.com/zh-CN/news/276304570.md) |
| OpenAI expands agentic commerce push | By embedding structured product data and checkout flows directly into ChatGPT, OpenAI is seeking to position AI as the f | [Link](https://longbridge.com/zh-CN/news/276071558.md) |
| Chinese tech companies progress 'remarkable,' OpenAI's Altman tells CNBC | OpenAI's Sam Altman praised the rapid progress of Chinese tech companies in AI during an AI summit in New Delhi. He note | [Link](https://longbridge.com/zh-CN/news/276315901.md) |
| Altman and Amodei share a moment of awkwardness at India’s big AI summit | At the India AI Impact Summit, a moment of awkwardness arose when OpenAI's Sam Altman and Anthropic's Dario Amodei did n | [Link](https://longbridge.com/zh-CN/news/276340986.md) |

---

> **免责声明**：本文内容仅供参考，不构成任何投资建议。