---
title: "OpenAI 推出 SWE-bench Verified：现有框架低估模型软件工程能力"
description: "OpenAI 推出 SWE-bench Verified，对现有 SWE-bench 进行改进，旨在更可靠地评估 AI 模型解决软件问题的能力。该举措是为了在系统接近 AGI 的情况下，能够对其在具有挑战性的任务中进行评估。这是一项与业务相关的信息，属于公司重要事件信息。"
type: "news"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/211496428.md"
published_at: "2024-08-13T23:47:30.000Z"
---

# OpenAI 推出 SWE-bench Verified：现有框架低估模型软件工程能力

> OpenAI 推出 SWE-bench Verified，对现有 SWE-bench 进行改进，旨在更可靠地评估 AI 模型解决软件问题的能力。该举措是为了在系统接近 AGI 的情况下，能够对其在具有挑战性的任务中进行评估。这是一项与业务相关的信息，属于公司重要事件信息。

刚刚 OpenAI 推出更可靠的代码生成评估基准：SWE-bench Verified。

发布 blog 里最重要的一句话是：“随着我们的系统越来越接近 AGI，我们需要在越来越具有挑战性的任务中对它们进行评估”。

该基准是对现有 SWE-bench 的改进版本（子集），旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。

SWE-bench 是一个流行的软件工程评估套件，用于评估大型语言模型 (LLM) 解决从 GitHub 提取的真实软件问题的能力。它通过向 AI 代理提供代码库和问题描述，并要求其生成修复问题的补丁来进行评估。虽然 LLM 在 SWE-bench 上取得了令人瞩目的进展，但 OpenAI 的研究发现，该基准存在一些问题，可能导致低估模型的自主软件工程能力。

具体来说，OpenAI 指出了 SWE-bench 的三个主要问题：

**1.单元测试过于严格**：用于评估解决方案正确性的单元测试通常过于具体，甚至与问题无关，这可能导致拒绝正确的解决方案。

**2.问题描述不明确**：许多样本的问题描述不够具体，导致对问题及其解决方案的理解存在歧义。

**3.开发环境难以设置**：有时难以可靠地为代理设置 SWE-bench 开发环境，这可能导致单元测试无论解决方案如何都会失败。

为了解决这些问题，OpenAI 与专业的软件开发人员合作，对 SWE-bench 测试集中的每个样本进行了人工筛选，以确保单元测试的范围适当且问题描述明确。最终，他们发布了 SWE-bench Verified，这是一个包含 500 个样本的经过验证的子集，并取代了原始的 SWE-bench 和 SWE-bench Lite 测试集。

此外，OpenAI 还与 SWE-bench 的作者合作，开发了一个新的评估工具，该工具使用容器化的 Docker 环境，使在 SWE-bench 上进行评估更容易、更可靠。

在 SWE-bench Verified 上，GPT-4o 解决了 33.2% 的样本，而表现最佳的开源代理框架 Agentless 的得分翻了一番，达到 16%。

OpenAI 的这项研究突出了深入理解和改进评估基准的重要性，特别是当 AI 系统越来越接近通用人工智能 (AGI) 时。随着 AI 模型能力的不断提高，我们需要更加谨慎地评估其性能，以确保评估结果准确反映模型的真实能力。

OpenAI 建议：

**深入理解基准**: 即使是精心设计的基准也可能存在问题，需要持续改进。

**考虑生态系统的进步**: 关注社区在代理框架方面的进展，并在评估风险时考虑潜在的外部增强功能

**认识到局限性**: 基于静态数据集的评估存在固有限制，需要补充其他评估方法。

详细信息：https://openai.com/index/introducing-swe-bench-verified/

### Related Stocks

- [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md)

## Related News & Research

| Title | Description | URL |
|-------|-------------|-----|
| OpenAI 高管：工程师变成 “魔法师”，AI 将开启新一轮创业狂潮 | OpenAI 内部曝光：95% 工程师已用 AI 编程，代码审查全由 Codex 接管！负责人 Sherwin Wu 预言，未来两年模型将具备数小时长任务处理能力，工程师正变为指挥智能体的 “巫师”。随着模型吞噬中间层，为 “超级个体” 服 | [Link](https://longbridge.com/zh-CN/news/275998627.md) |
| 为 AI 交易 “背书”！OpenAI 正敲定新一轮融资：以 8300 亿美元估值募资高达 1000 亿美元 | OpenAI 正以 8300 亿美元估值推进新一轮融资，目标筹集 1000 亿美元。软银拟领投 300 亿美元，亚马逊和英伟达可能各投 500 亿及 300 亿美元，微软拟投数十亿美元。本轮融资是 OpenAI 自去年秋季公司制改革以来的首 | [Link](https://longbridge.com/zh-CN/news/276298180.md) |
| 每千次展示 60 美元！OpenAI 用高价拉开 “AI 广告” 大幕 | 为应对 AI 巨额开支，OpenAI 正式测试广告，CPM60 美元起步、最低投入 20 万美元，定位高端渠道，直接挑战谷歌万亿美元市场，WPP 等顶级代理已率先合作。但转型风险并存：需平衡用户信任，承诺不用私聊数据；对手 Anthropi | [Link](https://longbridge.com/zh-CN/news/275993077.md) |
| OpenClaw 之父爆猛料：Meta 和 OpenAI 跪着抢人，小扎亲自求收购 | 在一场重磅播客访谈中，OpenClaw 之父 Peter Steinberger 透露，Meta 的扎克伯格和 OpenAI 的 Sam Altman 都在积极拉拢他，甚至扎克伯格亲自表示对 OpenClaw 的赞赏。两大科技巨头同时争抢人 | [Link](https://longbridge.com/zh-CN/news/275962731.md) |
| 特朗普暗示违法征收的关税不退了，美财长称今年关税收入将 “基本保持不变” | 美国总统特朗普暗示不会退还被最高法院裁定违法的关税，预计 2026 年关税收入将保持不变。特朗普计划签署行政令，对全球商品加征 10% 进口关税，取代被推翻的关税。财长贝森特表示，政府将利用替代法律权力维持关税收入，强调国家安全和财政收入不 | [Link](https://longbridge.com/zh-CN/news/276494362.md) |

---

> **免责声明**：本文内容仅供参考，不构成任何投资建议。