<div id="readability-page-1"><div> <figure>  <figcaption>OpenAI 推「PaperBench」測試 證最強 AI Agent 未超越人類</figcaption> </figure>   <p>OpenAI 於昨日（2 日）宣布推出全新基準測試「PaperBench」，旨在評估 AI Agent 複製頂尖 AI 研究的能力，結果顯示即使最先進模型仍未超越人類基準線。</p> <p>PaperBench 要求 AI Agent 從零開始複製 20 篇於 ICML 2024 會議上發表的 Spotlight 和 Oral 論文，包括理解論文核心貢獻、獨立開發代碼庫及成功執行相關實驗。為確保評估公正客觀，研究團隊設計了層級化評分標準，將每項複製任務分解為 8,316 個可獨立評分的子任務。  </p> <p>OpenAI 表示，所有評分標準均與原論文作者共同制定，以確保評估的準確性和實用性。團隊同時開發了基於大型語言模型的評判系統，能夠自動對 AI Agent 的複製嘗試進行評分。  </p> <p>測試結果顯示，目前表現最佳的 AI Agent，由 Anthropic 開發的 Claude 3.5 Sonnet（新版本），平均複製分數僅達 21%。研究團隊亦邀請頂尖機器學習博士生完成相同測試，結果表明 AI 模型尚未能超越人類專家在研究複製方面的能力。目前 OpenAI 已開源相關代碼，以促進業界對 AI Agent 工程能力的進一步研究。</p>  </div></div>

OpenAI

<p>OpenAI 於昨日推出全新基準測試「PaperBench」，旨在評估 AI Agent 複製頂尖 AI 研究的能力。測試結果顯示，即使是最先進的 AI 模型，表現也未能超越人類基準線。PaperBench 要求 AI Agent 從零開始複製 20 篇 ICML 2024 會議的論文，結果顯示表現最佳的 AI Agent 僅達 21% 的複製分數。OpenAI 已開源相關代碼，以促進對 AI Agent 工程能力的研究。</p>

OpenAI 推「PaperBench」測試 證最強 AI Agent 未超越人類

OpenAI 推「PaperBench」測試證最強 AI Agent 未超越人類