--- title: "OpenAI 推「PaperBench」測試 證最強 AI Agent 未超越人類" description: "OpenAI 於昨日推出全新基準測試「PaperBench」,旨在評估 AI Agent 複製頂尖 AI 研究的能力。測試結果顯示,即使是最先進的 AI 模型,表現也未能超越人類基準線。PaperBench 要求 AI Agent 從零開始複製 20 篇 ICML 2024 會議的論文,結果顯示表現最佳的 AI Agent 僅達 21% 的複製分數。OpenAI 已開源相關代碼,以促進對 AI A" type: "news" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/234314311.md" published_at: "2025-04-03T02:41:26.000Z" --- # OpenAI 推「PaperBench」測試 證最強 AI Agent 未超越人類 > OpenAI 於昨日推出全新基準測試「PaperBench」,旨在評估 AI Agent 複製頂尖 AI 研究的能力。測試結果顯示,即使是最先進的 AI 模型,表現也未能超越人類基準線。PaperBench 要求 AI Agent 從零開始複製 20 篇 ICML 2024 會議的論文,結果顯示表現最佳的 AI Agent 僅達 21% 的複製分數。OpenAI 已開源相關代碼,以促進對 AI Agent 工程能力的研究。 OpenAI 推「PaperBench」測試 證最強 AI Agent 未超越人類 OpenAI 於昨日(2 日)宣布推出全新基準測試「PaperBench」,旨在評估 AI Agent 複製頂尖 AI 研究的能力,結果顯示即使最先進模型仍未超越人類基準線。 PaperBench 要求 AI Agent 從零開始複製 20 篇於 ICML 2024 會議上發表的 Spotlight 和 Oral 論文,包括理解論文核心貢獻、獨立開發代碼庫及成功執行相關實驗。為確保評估公正客觀,研究團隊設計了層級化評分標準,將每項複製任務分解為 8,316 個可獨立評分的子任務。 OpenAI 表示,所有評分標準均與原論文作者共同制定,以確保評估的準確性和實用性。團隊同時開發了基於大型語言模型的評判系統,能夠自動對 AI Agent 的複製嘗試進行評分。 測試結果顯示,目前表現最佳的 AI Agent,由 Anthropic 開發的 Claude 3.5 Sonnet(新版本),平均複製分數僅達 21%。研究團隊亦邀請頂尖機器學習博士生完成相同測試,結果表明 AI 模型尚未能超越人類專家在研究複製方面的能力。目前 OpenAI 已開源相關代碼,以促進業界對 AI Agent 工程能力的進一步研究。 ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-HK/quote/OpenAI.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | Sam Altman And Dario Amodei Stir Controversy At India AI Summit Amid Photo-Op Gesture— OpenAI CEO Says 'I Just Wasn't Sure...' | At the India AI Impact Summit, OpenAI CEO Sam Altman and Anthropic CEO Dario Amodei stirred controversy by opting out of | [Link](https://longbridge.com/zh-HK/news/276431749.md) | | After AMD, OpenAI Partners With Tata To Build Massive 1GW AI Data Center In India | OpenAI has partnered with Tata Group and Tata Consultancy Services to develop a large-scale AI data center in India, wit | [Link](https://longbridge.com/zh-HK/news/276304570.md) | | OpenAI expands agentic commerce push | By embedding structured product data and checkout flows directly into ChatGPT, OpenAI is seeking to position AI as the f | [Link](https://longbridge.com/zh-HK/news/276071558.md) | | Chinese tech companies progress 'remarkable,' OpenAI's Altman tells CNBC | OpenAI's Sam Altman praised the rapid progress of Chinese tech companies in AI during an AI summit in New Delhi. He note | [Link](https://longbridge.com/zh-HK/news/276315901.md) | | Altman and Amodei share a moment of awkwardness at India’s big AI summit | At the India AI Impact Summit, a moment of awkwardness arose when OpenAI's Sam Altman and Anthropic's Dario Amodei did n | [Link](https://longbridge.com/zh-HK/news/276340986.md) | --- > **免責聲明**:本文內容僅供參考,不構成任何投資建議。