--- title: "OpenAI 推出 SWE-bench Verified:現有框架低估模型軟件工程能力" description: "OpenAI 推出 SWE-bench Verified,對現有 SWE-bench 進行改進,旨在更可靠地評估 AI 模型解決軟件問題的能力。該舉措是為了在系統接近 AGI 的情況下,能夠對其在具有挑戰性的任務中進行評估。這是一項與業務相關的信息,屬於公司重要事件信息。" type: "news" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/211496428.md" published_at: "2024-08-13T23:47:30.000Z" --- # OpenAI 推出 SWE-bench Verified:現有框架低估模型軟件工程能力 > OpenAI 推出 SWE-bench Verified,對現有 SWE-bench 進行改進,旨在更可靠地評估 AI 模型解決軟件問題的能力。該舉措是為了在系統接近 AGI 的情況下,能夠對其在具有挑戰性的任務中進行評估。這是一項與業務相關的信息,屬於公司重要事件信息。 剛剛 OpenAI 推出更可靠的代碼生成評估基準:SWE-bench Verified。 發佈 blog 裏最重要的一句話是:“隨着我們的系統越來越接近 AGI,我們需要在越來越具有挑戰性的任務中對它們進行評估”。 該基準是對現有 SWE-bench 的改進版本(子集),旨在更可靠地評估 AI 模型解決現實世界軟件問題的能力。 SWE-bench 是一個流行的軟件工程評估套件,用於評估大型語言模型 (LLM) 解決從 GitHub 提取的真實軟件問題的能力。它通過向 AI 代理提供代碼庫和問題描述,並要求其生成修復問題的補丁來進行評估。雖然 LLM 在 SWE-bench 上取得了令人矚目的進展,但 OpenAI 的研究發現,該基準存在一些問題,可能導致低估模型的自主軟件工程能力。 具體來説,OpenAI 指出了 SWE-bench 的三個主要問題: **1.單元測試過於嚴格**:用於評估解決方案正確性的單元測試通常過於具體,甚至與問題無關,這可能導致拒絕正確的解決方案。 **2.問題描述不明確**:許多樣本的問題描述不夠具體,導致對問題及其解決方案的理解存在歧義。 **3.開發環境難以設置**:有時難以可靠地為代理設置 SWE-bench 開發環境,這可能導致單元測試無論解決方案如何都會失敗。 為了解決這些問題,OpenAI 與專業的軟件開發人員合作,對 SWE-bench 測試集中的每個樣本進行了人工篩選,以確保單元測試的範圍適當且問題描述明確。最終,他們發佈了 SWE-bench Verified,這是一個包含 500 個樣本的經過驗證的子集,並取代了原始的 SWE-bench 和 SWE-bench Lite 測試集。 此外,OpenAI 還與 SWE-bench 的作者合作,開發了一個新的評估工具,該工具使用容器化的 Docker 環境,使在 SWE-bench 上進行評估更容易、更可靠。 在 SWE-bench Verified 上,GPT-4o 解決了 33.2% 的樣本,而表現最佳的開源代理框架 Agentless 的得分翻了一番,達到 16%。 OpenAI 的這項研究突出了深入理解和改進評估基準的重要性,特別是當 AI 系統越來越接近通用人工智能 (AGI) 時。隨着 AI 模型能力的不斷提高,我們需要更加謹慎地評估其性能,以確保評估結果準確反映模型的真實能力。 OpenAI 建議: **深入理解基準**: 即使是精心設計的基準也可能存在問題,需要持續改進。 **考慮生態系統的進步**: 關注社區在代理框架方面的進展,並在評估風險時考慮潛在的外部增強功能 **認識到侷限性**: 基於靜態數據集的評估存在固有限制,需要補充其他評估方法。 詳細信息:https://openai.com/index/introducing-swe-bench-verified/ ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-HK/quote/OpenAI.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | OpenAI 高管:工程师变成 “魔法师”,AI 将开启新一轮创业狂潮 | OpenAI 内部曝光:95% 工程师已用 AI 编程,代码审查全由 Codex 接管!负责人 Sherwin Wu 预言,未来两年模型将具备数小时长任务处理能力,工程师正变为指挥智能体的 “巫师”。随着模型吞噬中间层,为 “超级个体” 服 | [Link](https://longbridge.com/zh-HK/news/275998627.md) | | 为 AI 交易 “背书”!OpenAI 正敲定新一轮融资:以 8300 亿美元估值募资高达 1000 亿美元 | OpenAI 正以 8300 亿美元估值推进新一轮融资,目标筹集 1000 亿美元。软银拟领投 300 亿美元,亚马逊和英伟达可能各投 500 亿及 300 亿美元,微软拟投数十亿美元。本轮融资是 OpenAI 自去年秋季公司制改革以来的首 | [Link](https://longbridge.com/zh-HK/news/276298180.md) | | 每千次展示 60 美元!OpenAI 用高价拉开 “AI 广告” 大幕 | 为应对 AI 巨额开支,OpenAI 正式测试广告,CPM60 美元起步、最低投入 20 万美元,定位高端渠道,直接挑战谷歌万亿美元市场,WPP 等顶级代理已率先合作。但转型风险并存:需平衡用户信任,承诺不用私聊数据;对手 Anthropi | [Link](https://longbridge.com/zh-HK/news/275993077.md) | | OpenClaw 之父爆猛料:Meta 和 OpenAI 跪着抢人,小扎亲自求收购 | 在一场重磅播客访谈中,OpenClaw 之父 Peter Steinberger 透露,Meta 的扎克伯格和 OpenAI 的 Sam Altman 都在积极拉拢他,甚至扎克伯格亲自表示对 OpenClaw 的赞赏。两大科技巨头同时争抢人 | [Link](https://longbridge.com/zh-HK/news/275962731.md) | | 特朗普暗示违法征收的关税不退了,美财长称今年关税收入将 “基本保持不变” | 美国总统特朗普暗示不会退还被最高法院裁定违法的关税,预计 2026 年关税收入将保持不变。特朗普计划签署行政令,对全球商品加征 10% 进口关税,取代被推翻的关税。财长贝森特表示,政府将利用替代法律权力维持关税收入,强调国家安全和财政收入不 | [Link](https://longbridge.com/zh-HK/news/276494362.md) | --- > **免責聲明**:本文內容僅供參考,不構成任何投資建議。