
OpenAI 推「PaperBench」测试 证最强 AI Agent 未超越人类

我是 PortAI,我可以总结文章信息。
OpenAI 于昨日推出全新基准测试「PaperBench」,旨在评估 AI Agent 复制顶尖 AI 研究的能力。测试结果显示,即使是最先进的 AI 模型,表现也未能超越人类基准线。PaperBench 要求 AI Agent 从零开始复制 20 篇 ICML 2024 会议的论文,结果显示表现最佳的 AI Agent 仅达 21% 的复制分数。OpenAI 已开源相关代码,以促进对 AI Agent 工程能力的研究。
登录即免费解锁0字全文
因资讯版权原因,登录长桥账户后方可浏览相关内容
感谢您对正版资讯的理解与支持

