OpenAI 推「PaperBench」测试 证最强 AI Agent 未超越人类

星岛网
2025.04.03 02:41
portai
我是 PortAI,我可以总结文章信息。

OpenAI 于昨日推出全新基准测试「PaperBench」,旨在评估 AI Agent 复制顶尖 AI 研究的能力。测试结果显示,即使是最先进的 AI 模型,表现也未能超越人类基准线。PaperBench 要求 AI Agent 从零开始复制 20 篇 ICML 2024 会议的论文,结果显示表现最佳的 AI Agent 仅达 21% 的复制分数。OpenAI 已开源相关代码,以促进对 AI Agent 工程能力的研究。