---
title: "OpenAI 推「PaperBench」測試 證最強 AI Agent 未超越人類"
description: "OpenAI 於昨日推出全新基準測試「PaperBench」，旨在評估 AI Agent 複製頂尖 AI 研究的能力。測試結果顯示，即使是最先進的 AI 模型，表現也未能超越人類基準線。PaperBench 要求 AI Agent 從零開始複製 20 篇 ICML 2024 會議的論文，結果顯示表現最佳的 AI Agent 僅達 21% 的複製分數。OpenAI 已開源相關代碼，以促進對 AI A"
type: "news"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/234314311.md"
published_at: "2025-04-03T02:41:26.000Z"
---

# OpenAI 推「PaperBench」測試 證最強 AI Agent 未超越人類

> OpenAI 於昨日推出全新基準測試「PaperBench」，旨在評估 AI Agent 複製頂尖 AI 研究的能力。測試結果顯示，即使是最先進的 AI 模型，表現也未能超越人類基準線。PaperBench 要求 AI Agent 從零開始複製 20 篇 ICML 2024 會議的論文，結果顯示表現最佳的 AI Agent 僅達 21% 的複製分數。OpenAI 已開源相關代碼，以促進對 AI Agent 工程能力的研究。

OpenAI 推「PaperBench」測試 證最強 AI Agent 未超越人類

OpenAI 於昨日（2 日）宣布推出全新基準測試「PaperBench」，旨在評估 AI Agent 複製頂尖 AI 研究的能力，結果顯示即使最先進模型仍未超越人類基準線。

PaperBench 要求 AI Agent 從零開始複製 20 篇於 ICML 2024 會議上發表的 Spotlight 和 Oral 論文，包括理解論文核心貢獻、獨立開發代碼庫及成功執行相關實驗。為確保評估公正客觀，研究團隊設計了層級化評分標準，將每項複製任務分解為 8,316 個可獨立評分的子任務。

OpenAI 表示，所有評分標準均與原論文作者共同制定，以確保評估的準確性和實用性。團隊同時開發了基於大型語言模型的評判系統，能夠自動對 AI Agent 的複製嘗試進行評分。

測試結果顯示，目前表現最佳的 AI Agent，由 Anthropic 開發的 Claude 3.5 Sonnet（新版本），平均複製分數僅達 21%。研究團隊亦邀請頂尖機器學習博士生完成相同測試，結果表明 AI 模型尚未能超越人類專家在研究複製方面的能力。目前 OpenAI 已開源相關代碼，以促進業界對 AI Agent 工程能力的進一步研究。

### Related Stocks

- [OpenAI.NA - OpenAI](https://longbridge.com/zh-HK/quote/OpenAI.NA.md)

## Related News & Research

| Title | Description | URL |
|-------|-------------|-----|
| Sam Altman And Dario Amodei Stir Controversy At India AI Summit Amid Photo-Op Gesture— OpenAI CEO Says 'I Just Wasn't Sure...' | At the India AI Impact Summit, OpenAI CEO Sam Altman and Anthropic CEO Dario Amodei stirred controversy by opting out of | [Link](https://longbridge.com/zh-HK/news/276431749.md) |
| After AMD, OpenAI Partners With Tata To Build Massive 1GW AI Data Center In India | OpenAI has partnered with Tata Group and Tata Consultancy Services to develop a large-scale AI data center in India, wit | [Link](https://longbridge.com/zh-HK/news/276304570.md) |
| OpenAI expands agentic commerce push | By embedding structured product data and checkout flows directly into ChatGPT, OpenAI is seeking to position AI as the f | [Link](https://longbridge.com/zh-HK/news/276071558.md) |
| Chinese tech companies progress 'remarkable,' OpenAI's Altman tells CNBC | OpenAI's Sam Altman praised the rapid progress of Chinese tech companies in AI during an AI summit in New Delhi. He note | [Link](https://longbridge.com/zh-HK/news/276315901.md) |
| Altman and Amodei share a moment of awkwardness at India’s big AI summit | At the India AI Impact Summit, a moment of awkwardness arose when OpenAI's Sam Altman and Anthropic's Dario Amodei did n | [Link](https://longbridge.com/zh-HK/news/276340986.md) |

---

> **免責聲明**：本文內容僅供參考，不構成任何投資建議。