<div id="readability-page-1">刚刚 OpenAI 推出更可靠的代码生成评估基准：SWE-bench Verified。 发布 blog 里最重要的一句话是：“随着我们的系统越来越接近 AGI，我们需要在越来越具有挑战性的任务中对它们进行评估”。 该基准是对现有 SWE-bench 的改进版本（子集），旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6a193c07-ceaa-404d-a076-56dab85b4958.jpeg/query-aW1hZ2VWaWV3Mi8yL3cvNjQw?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="640" height="408" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6a193c07-ceaa-404d-a076-56dab85b4958.jpeg/query-aW1hZ2VWaWV3Mi8yL3cvNjQw"/> SWE-bench 是一个流行的软件工程评估套件，用于评估大型语言模型 (LLM) 解决从 GitHub 提取的真实软件问题的能力。它通过向 AI 代理提供代码库和问题描述，并要求其生成修复问题的补丁来进行评估。虽然 LLM 在 SWE-bench 上取得了令人瞩目的进展，但 OpenAI 的研究发现，该基准存在一些问题，可能导致低估模型的自主软件工程能力。 具体来说，OpenAI 指出了 SWE-bench 的三个主要问题： 1.单元测试过于严格：用于评估解决方案正确性的单元测试通常过于具体，甚至与问题无关，这可能导致拒绝正确的解决方案。 2.问题描述不明确：许多样本的问题描述不够具体，导致对问题及其解决方案的理解存在歧义。 3.开发环境难以设置：有时难以可靠地为代理设置 SWE-bench 开发环境，这可能导致单元测试无论解决方案如何都会失败。 为了解决这些问题，OpenAI 与专业的软件开发人员合作，对 SWE-bench 测试集中的每个样本进行了人工筛选，以确保单元测试的范围适当且问题描述明确。最终，他们发布了 SWE-bench Verified，这是一个包含 500 个样本的经过验证的子集，并取代了原始的 SWE-bench 和 SWE-bench Lite 测试集。 此外，OpenAI 还与 SWE-bench 的作者合作，开发了一个新的评估工具，该工具使用容器化的 Docker 环境，使在 SWE-bench 上进行评估更容易、更可靠。 在 SWE-bench Verified 上，GPT-4o 解决了 33.2% 的样本，而表现最佳的开源代理框架 Agentless 的得分翻了一番，达到 16%。 OpenAI 的这项研究突出了深入理解和改进评估基准的重要性，特别是当 AI 系统越来越接近通用人工智能 (AGI) 时。随着 AI 模型能力的不断提高，我们需要更加谨慎地评估其性能，以确保评估结果准确反映模型的真实能力。 OpenAI 建议： 深入理解基准: 即使是精心设计的基准也可能存在问题，需要持续改进。 考虑生态系统的进步: 关注社区在代理框架方面的进展，并在评估风险时考虑潜在的外部增强功能 认识到局限性: 基于静态数据集的评估存在固有限制，需要补充其他评估方法。 详细信息：https://openai.com/index/introducing-swe-bench-verified/ </div>

OpenAI

OpenAI 推出 SWE-bench Verified，对现有 SWE-bench 进行改进，旨在更可靠地评估 AI 模型解决软件问题的能力。该举措是为了在系统接近 AGI 的情况下，能够对其在具有挑战性的任务中进行评估。这是一项与业务相关的信息，属于公司重要事件信息。

OpenAI 推出 SWE-bench Verified：现有框架低估模型软件工程能力