OpenAI 推「PaperBench」測試 證最強 AI Agent 未超越人類

星島網
2025.04.03 02:41
portai
我是 PortAI,我可以總結文章信息。

OpenAI 於昨日推出全新基準測試「PaperBench」,旨在評估 AI Agent 複製頂尖 AI 研究的能力。測試結果顯示,即使是最先進的 AI 模型,表現也未能超越人類基準線。PaperBench 要求 AI Agent 從零開始複製 20 篇 ICML 2024 會議的論文,結果顯示表現最佳的 AI Agent 僅達 21% 的複製分數。OpenAI 已開源相關代碼,以促進對 AI Agent 工程能力的研究。