OpenAI 推出 SWE-bench Verified:現有框架低估模型軟件工程能力

華爾街見聞
2024.08.13 23:47
portai
我是 PortAI,我可以總結文章信息。

OpenAI 推出 SWE-bench Verified,對現有 SWE-bench 進行改進,旨在更可靠地評估 AI 模型解決軟件問題的能力。該舉措是為了在系統接近 AGI 的情況下,能夠對其在具有挑戰性的任務中進行評估。這是一項與業務相關的信息,屬於公司重要事件信息。