
OpenAI 推「PaperBench」測試 證最強 AI Agent 未超越人類

我是 PortAI,我可以總結文章信息。
OpenAI 於昨日推出全新基準測試「PaperBench」,旨在評估 AI Agent 複製頂尖 AI 研究的能力。測試結果顯示,即使是最先進的 AI 模型,表現也未能超越人類基準線。PaperBench 要求 AI Agent 從零開始複製 20 篇 ICML 2024 會議的論文,結果顯示表現最佳的 AI Agent 僅達 21% 的複製分數。OpenAI 已開源相關代碼,以促進對 AI Agent 工程能力的研究。
登錄即免費解鎖0字全文
因資訊版權原因,登入長橋帳戶後方可瀏覽相關內容
多謝您對正版資訊的支持與理解

