
Anthropic 发布 Claude Opus 4.5,编程性能全面提升

Anthropic 周一发布旗舰模型 Claude Opus 4.5,在自动化编程、多步骤任务执行和办公文档生成方面显著增强,并将在全线产品中成为默认模型。新模型在 SWE-Bench 等编程评测中成绩超过 Google Gemini 3 Pro 与 OpenAI GPT-5.1,被公司称为 “最智能的工程模型”。
Anthropic 周一推出其旗舰 AI 模型的最新版本 Claude Opus 4.5,称该模型在软件工程方面比以往版本更强,能更好地执行自动化编程和办公任务。分析称,这是 Anthropic 争夺企业客户而在与 OpenAI 和谷歌竞争中的又一步动作。
Claude Opus 4.5 是 Anthropic 在两个月内发布的第三个重要模型,再次展示了 AI 行业的发展速度之快。该公司在 9 月底推出了 Claude Sonnet 4.5,10 月又发布了 Claude Haiku 4.5。
Anthropic 表示,Claude Opus 4.5 可以更自主地修复程序错误,而不需要用户介入,还被设计成能更好地在用户的电脑和互联网上执行复杂的多步骤任务。
Anthropic 开发者关系负责人 Alex Albert 对媒体表示:
“在我们真正关注的那些任务中,这是世界上最智能的模型。”
“我们的主题就是以极高的速度推进,并不断推出我们所能做到的最好的模型。”
Claude Opus 4.5 将在所有地区上线,并成为 Anthropic Pro、Max 和 Enterprise 全线产品的默认模型。
新模型编程能力突出
Anthropic 在博客中表示,这款新模型在广受欢迎的编程测试集 SWE-Bench Verified 上的得分超过了 Google Gemini 3 Pro 和 OpenAI 的 GPT 5.1。

新模型在处理日常任务方面 “显著更强”。在 “代理式编程”(agentic coding)方面,Claude Opus 4.5 也达到了行业领先水平,根据软件能力评测集 SWE-bench Verified 的结果,它的表现优于 Gemini 3 Pro,以及 OpenAI 的 GPT-5.1。

根据 Claude AI 模型产品负责人 Scott White 的说法,Anthropic 的新模型在某种意义上达到了新的编程里程碑。Opus 4.5 是第一款在公司内部一项具有挑战性的 “居家工程任务” 测试中,得分超过所有公司应聘工程师求职者的模型。White 没有透露这个任务的具体内容,但表示这是一个需要合格求职者花费数小时完成的测评任务,而且任务本身也会使用 Anthropic 的 Claude 模型。
White 对媒体表示:
“现在,它已经达到一个拐点,我们必须重新思考如何评估软件工程能力。”
White 表示,Claude Opus 4.5 的理想用户包括专业软件开发人员、金融分析师、咨询顾问以及会计师等知识型工作者。他补充说,那些 “渴望提升自身创造力、打造新产品、扩大专业能力范围” 的用户也会觉得这款模型很有用。
他表示,新模型还能更好地处理金融分析、制作演示文稿和电子表格等任务。此外,Opus 4.5 更适合与用户进行来回协作,不只是简单生成一个用户再去自行打磨的粗稿。
Anthropic 也将在微软 Excel 中向企业客户和其高端 Max 订阅用户提供 Opus 4.5。Excel 中的聊天功能允许用户指示 Claude 聊天机器人执行诸如编辑电子表格等操作。此前,这项功能仅在受邀测试的用户中提供。
其他产品更新
除了模型发布,Anthropic 周一还宣布了一系列其他产品和功能更新。
该公司表示,其浏览器扩展 Claude for Chrome(可以让 Claude 在不同浏览器标签页之间执行操作)将向所有 Max 用户开放。Claude for Excel(能理解并编辑电子表格)也将向所有 Max、Team 和 Enterprise 用户全面开放。
Anthropic 还将 Claude Code 引入桌面应用,并为其开发者平台加入新功能。
企业编程领域模型采用率领先
Anthropic 由前 OpenAI 员工于 2021 年在旧金山创立,目前已有超过 30 万家企业客户使用其模型来简化工作流程。尤其是在计算机编程领域,该公司已经成为市场领先者之一。微软和英伟达上周宣布对 Anthropic 进行数十亿美元投资,使其估值提升至约 3500 亿美元。
该公司最知名的产品是一系列名为 Claude 的 AI 模型。它通过不断增加编号来区分不同代际,但系列里最大的模型通常称为 Opus,专为高级推理和复杂问题求解而打造;中等规模的称为 Sonnet,最小的称为 Haiku,两者则主要优化速度和效率。Anthropic 最近一次发布的 Opus 型号是在 8 月,名为 Claude Opus 4.1。
但 Anthropic 面临来自 OpenAI 和谷歌的激烈竞争。谷歌上周发布了 Gemini 3,新模型在编码等任务上表现更强。
今年 7 月,Menlo Ventures 的报告指出,Anthropic 目前在企业级 AI 采用率方面处于领先,占据 32% 的市场份额。OpenAI 以 25% 排第二,相比两年前几乎腰斩;谷歌为 20%,Meta 以 9% 排第四。

