---
title: "OpenAI 推出 SWE-bench Verified：現有框架低估模型軟件工程能力"
description: "OpenAI 推出 SWE-bench Verified，對現有 SWE-bench 進行改進，旨在更可靠地評估 AI 模型解決軟件問題的能力。該舉措是為了在系統接近 AGI 的情況下，能夠對其在具有挑戰性的任務中進行評估。這是一項與業務相關的信息，屬於公司重要事件信息。"
type: "news"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/211496428.md"
published_at: "2024-08-13T23:47:30.000Z"
---

# OpenAI 推出 SWE-bench Verified：現有框架低估模型軟件工程能力

> OpenAI 推出 SWE-bench Verified，對現有 SWE-bench 進行改進，旨在更可靠地評估 AI 模型解決軟件問題的能力。該舉措是為了在系統接近 AGI 的情況下，能夠對其在具有挑戰性的任務中進行評估。這是一項與業務相關的信息，屬於公司重要事件信息。

剛剛 OpenAI 推出更可靠的代碼生成評估基準：SWE-bench Verified。

發佈 blog 裏最重要的一句話是：“隨着我們的系統越來越接近 AGI，我們需要在越來越具有挑戰性的任務中對它們進行評估”。

該基準是對現有 SWE-bench 的改進版本（子集），旨在更可靠地評估 AI 模型解決現實世界軟件問題的能力。

SWE-bench 是一個流行的軟件工程評估套件，用於評估大型語言模型 (LLM) 解決從 GitHub 提取的真實軟件問題的能力。它通過向 AI 代理提供代碼庫和問題描述，並要求其生成修復問題的補丁來進行評估。雖然 LLM 在 SWE-bench 上取得了令人矚目的進展，但 OpenAI 的研究發現，該基準存在一些問題，可能導致低估模型的自主軟件工程能力。

具體來説，OpenAI 指出了 SWE-bench 的三個主要問題：

**1.單元測試過於嚴格**：用於評估解決方案正確性的單元測試通常過於具體，甚至與問題無關，這可能導致拒絕正確的解決方案。

**2.問題描述不明確**：許多樣本的問題描述不夠具體，導致對問題及其解決方案的理解存在歧義。

**3.開發環境難以設置**：有時難以可靠地為代理設置 SWE-bench 開發環境，這可能導致單元測試無論解決方案如何都會失敗。

為了解決這些問題，OpenAI 與專業的軟件開發人員合作，對 SWE-bench 測試集中的每個樣本進行了人工篩選，以確保單元測試的範圍適當且問題描述明確。最終，他們發佈了 SWE-bench Verified，這是一個包含 500 個樣本的經過驗證的子集，並取代了原始的 SWE-bench 和 SWE-bench Lite 測試集。

此外，OpenAI 還與 SWE-bench 的作者合作，開發了一個新的評估工具，該工具使用容器化的 Docker 環境，使在 SWE-bench 上進行評估更容易、更可靠。

在 SWE-bench Verified 上，GPT-4o 解決了 33.2% 的樣本，而表現最佳的開源代理框架 Agentless 的得分翻了一番，達到 16%。

OpenAI 的這項研究突出了深入理解和改進評估基準的重要性，特別是當 AI 系統越來越接近通用人工智能 (AGI) 時。隨着 AI 模型能力的不斷提高，我們需要更加謹慎地評估其性能，以確保評估結果準確反映模型的真實能力。

OpenAI 建議：

**深入理解基準**: 即使是精心設計的基準也可能存在問題，需要持續改進。

**考慮生態系統的進步**: 關注社區在代理框架方面的進展，並在評估風險時考慮潛在的外部增強功能

**認識到侷限性**: 基於靜態數據集的評估存在固有限制，需要補充其他評估方法。

詳細信息：https://openai.com/index/introducing-swe-bench-verified/

### Related Stocks

- [OpenAI.NA - OpenAI](https://longbridge.com/zh-HK/quote/OpenAI.NA.md)

## Related News & Research

| Title | Description | URL |
|-------|-------------|-----|
| OpenAI 高管：工程师变成 “魔法师”，AI 将开启新一轮创业狂潮 | OpenAI 内部曝光：95% 工程师已用 AI 编程，代码审查全由 Codex 接管！负责人 Sherwin Wu 预言，未来两年模型将具备数小时长任务处理能力，工程师正变为指挥智能体的 “巫师”。随着模型吞噬中间层，为 “超级个体” 服 | [Link](https://longbridge.com/zh-HK/news/275998627.md) |
| 为 AI 交易 “背书”！OpenAI 正敲定新一轮融资：以 8300 亿美元估值募资高达 1000 亿美元 | OpenAI 正以 8300 亿美元估值推进新一轮融资，目标筹集 1000 亿美元。软银拟领投 300 亿美元，亚马逊和英伟达可能各投 500 亿及 300 亿美元，微软拟投数十亿美元。本轮融资是 OpenAI 自去年秋季公司制改革以来的首 | [Link](https://longbridge.com/zh-HK/news/276298180.md) |
| 每千次展示 60 美元！OpenAI 用高价拉开 “AI 广告” 大幕 | 为应对 AI 巨额开支，OpenAI 正式测试广告，CPM60 美元起步、最低投入 20 万美元，定位高端渠道，直接挑战谷歌万亿美元市场，WPP 等顶级代理已率先合作。但转型风险并存：需平衡用户信任，承诺不用私聊数据；对手 Anthropi | [Link](https://longbridge.com/zh-HK/news/275993077.md) |
| OpenClaw 之父爆猛料：Meta 和 OpenAI 跪着抢人，小扎亲自求收购 | 在一场重磅播客访谈中，OpenClaw 之父 Peter Steinberger 透露，Meta 的扎克伯格和 OpenAI 的 Sam Altman 都在积极拉拢他，甚至扎克伯格亲自表示对 OpenClaw 的赞赏。两大科技巨头同时争抢人 | [Link](https://longbridge.com/zh-HK/news/275962731.md) |
| 特朗普暗示违法征收的关税不退了，美财长称今年关税收入将 “基本保持不变” | 美国总统特朗普暗示不会退还被最高法院裁定违法的关税，预计 2026 年关税收入将保持不变。特朗普计划签署行政令，对全球商品加征 10% 进口关税，取代被推翻的关税。财长贝森特表示，政府将利用替代法律权力维持关税收入，强调国家安全和财政收入不 | [Link](https://longbridge.com/zh-HK/news/276494362.md) |

---

> **免責聲明**：本文內容僅供參考，不構成任何投資建議。