--- title: "OpenAI 推出 SWE-bench Verified:现有框架低估模型软件工程能力" description: "OpenAI 推出 SWE-bench Verified,对现有 SWE-bench 进行改进,旨在更可靠地评估 AI 模型解决软件问题的能力。该举措是为了在系统接近 AGI 的情况下,能够对其在具有挑战性的任务中进行评估。这是一项与业务相关的信息,属于公司重要事件信息。" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/211496428.md" published_at: "2024-08-13T23:47:30.000Z" --- # OpenAI 推出 SWE-bench Verified:现有框架低估模型软件工程能力 > OpenAI 推出 SWE-bench Verified,对现有 SWE-bench 进行改进,旨在更可靠地评估 AI 模型解决软件问题的能力。该举措是为了在系统接近 AGI 的情况下,能够对其在具有挑战性的任务中进行评估。这是一项与业务相关的信息,属于公司重要事件信息。 刚刚 OpenAI 推出更可靠的代码生成评估基准:SWE-bench Verified。 发布 blog 里最重要的一句话是:“随着我们的系统越来越接近 AGI,我们需要在越来越具有挑战性的任务中对它们进行评估”。 该基准是对现有 SWE-bench 的改进版本(子集),旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。 SWE-bench 是一个流行的软件工程评估套件,用于评估大型语言模型 (LLM) 解决从 GitHub 提取的真实软件问题的能力。它通过向 AI 代理提供代码库和问题描述,并要求其生成修复问题的补丁来进行评估。虽然 LLM 在 SWE-bench 上取得了令人瞩目的进展,但 OpenAI 的研究发现,该基准存在一些问题,可能导致低估模型的自主软件工程能力。 具体来说,OpenAI 指出了 SWE-bench 的三个主要问题: **1.单元测试过于严格**:用于评估解决方案正确性的单元测试通常过于具体,甚至与问题无关,这可能导致拒绝正确的解决方案。 **2.问题描述不明确**:许多样本的问题描述不够具体,导致对问题及其解决方案的理解存在歧义。 **3.开发环境难以设置**:有时难以可靠地为代理设置 SWE-bench 开发环境,这可能导致单元测试无论解决方案如何都会失败。 为了解决这些问题,OpenAI 与专业的软件开发人员合作,对 SWE-bench 测试集中的每个样本进行了人工筛选,以确保单元测试的范围适当且问题描述明确。最终,他们发布了 SWE-bench Verified,这是一个包含 500 个样本的经过验证的子集,并取代了原始的 SWE-bench 和 SWE-bench Lite 测试集。 此外,OpenAI 还与 SWE-bench 的作者合作,开发了一个新的评估工具,该工具使用容器化的 Docker 环境,使在 SWE-bench 上进行评估更容易、更可靠。 在 SWE-bench Verified 上,GPT-4o 解决了 33.2% 的样本,而表现最佳的开源代理框架 Agentless 的得分翻了一番,达到 16%。 OpenAI 的这项研究突出了深入理解和改进评估基准的重要性,特别是当 AI 系统越来越接近通用人工智能 (AGI) 时。随着 AI 模型能力的不断提高,我们需要更加谨慎地评估其性能,以确保评估结果准确反映模型的真实能力。 OpenAI 建议: **深入理解基准**: 即使是精心设计的基准也可能存在问题,需要持续改进。 **考虑生态系统的进步**: 关注社区在代理框架方面的进展,并在评估风险时考虑潜在的外部增强功能 **认识到局限性**: 基于静态数据集的评估存在固有限制,需要补充其他评估方法。 详细信息:https://openai.com/index/introducing-swe-bench-verified/ ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | OpenAI 高管:工程师变成 “魔法师”,AI 将开启新一轮创业狂潮 | OpenAI 内部曝光:95% 工程师已用 AI 编程,代码审查全由 Codex 接管!负责人 Sherwin Wu 预言,未来两年模型将具备数小时长任务处理能力,工程师正变为指挥智能体的 “巫师”。随着模型吞噬中间层,为 “超级个体” 服 | [Link](https://longbridge.com/zh-CN/news/275998627.md) | | 为 AI 交易 “背书”!OpenAI 正敲定新一轮融资:以 8300 亿美元估值募资高达 1000 亿美元 | OpenAI 正以 8300 亿美元估值推进新一轮融资,目标筹集 1000 亿美元。软银拟领投 300 亿美元,亚马逊和英伟达可能各投 500 亿及 300 亿美元,微软拟投数十亿美元。本轮融资是 OpenAI 自去年秋季公司制改革以来的首 | [Link](https://longbridge.com/zh-CN/news/276298180.md) | | 每千次展示 60 美元!OpenAI 用高价拉开 “AI 广告” 大幕 | 为应对 AI 巨额开支,OpenAI 正式测试广告,CPM60 美元起步、最低投入 20 万美元,定位高端渠道,直接挑战谷歌万亿美元市场,WPP 等顶级代理已率先合作。但转型风险并存:需平衡用户信任,承诺不用私聊数据;对手 Anthropi | [Link](https://longbridge.com/zh-CN/news/275993077.md) | | OpenClaw 之父爆猛料:Meta 和 OpenAI 跪着抢人,小扎亲自求收购 | 在一场重磅播客访谈中,OpenClaw 之父 Peter Steinberger 透露,Meta 的扎克伯格和 OpenAI 的 Sam Altman 都在积极拉拢他,甚至扎克伯格亲自表示对 OpenClaw 的赞赏。两大科技巨头同时争抢人 | [Link](https://longbridge.com/zh-CN/news/275962731.md) | | 特朗普暗示违法征收的关税不退了,美财长称今年关税收入将 “基本保持不变” | 美国总统特朗普暗示不会退还被最高法院裁定违法的关税,预计 2026 年关税收入将保持不变。特朗普计划签署行政令,对全球商品加征 10% 进口关税,取代被推翻的关税。财长贝森特表示,政府将利用替代法律权力维持关税收入,强调国家安全和财政收入不 | [Link](https://longbridge.com/zh-CN/news/276494362.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。