
新版 Gemini 2.5 拿下所有榜一,谷歌无敌了!一个月全面击败 o3,编程反超 Claude 4

谷歌推出新版 Gemini 2.5 Pro,迅速在各项基准测试中取得领先,全面击败 o3 和 Claude 4。新模型在数学、编程和推理测试中刷新 SOTA,Elo 评分提升 24 分,Web Arena 上更是提升 35 分。Gemini 2.5 Pro 保持原价,性价比高,且引入了「思考预算」等新功能,预计几周后将成为稳定版本,适合企业级应用。
凌晨,谷歌带着全新的 Gemini 2.5 Pro 炸场了!
仅一个月的时间,Gemini 2.5 Pro(06-05)直接干趴了 I/O 大会放出的 Gemini 2.5 Pro(05-06)。
果然,能打败谷歌的,只有谷歌自己。

这次,Gemini 2.5 Pro(06-05)依旧是所有榜一。
在数学、编程、推理基准测试中,新版模型全部刷新 SOTA,完全碾压 o3、Claude 4、DeepSeek-R1。
相较于上一代,Gemini 2.5 Pro 整体 Elo 提升了 24 分,尤其是在 Web Arena 上 Elo 提升了足足 35 分。

值得一提的是,更新后版本 token 依旧维持原价,性价比极高,输出价格仅为 o3 的四分之一,Claude 4 就更别提了。

而且,Gemini 2.5 Pro(06-05)还引入了「思考预算」,最高达 32k,还改进了函数调用等功能。
Gemini 2.5 数学编码再进化,所有榜一
新版 Gemini 2.5 Pro(06-05)和旧版 Gemini 2.5 Pro(05-06),名字后面版本的时间,值得玩味。
很明显,谷歌这次特意选择在这个时间点放出新模型。

根据官博介绍,此次是 Gemini 2.5 Pro 的升级预览版,这是谷歌迄今最智能的模型。
升级基于 5 月 I/O 大会展示的基础上,这个模型将在几周后成为普遍可用的稳定版本,适合企业级应用。

最新的 2.5 Pro 在 LMArena 排行榜上 Elo 分数跃升 24 分,达到了 1470,稳居榜首。
更夸张的是,它在所有领域里都排名第一。

在 WebDevArena 上实现了 35 分的 Elo 评分飞跃,达到 1443 分。

它在编程方面表现卓越,在 Aider Polyglot 等高难度编程基准测试中名列前茅。
同时,它在 GPQA 和「人类最后考试」(HLE)等极具挑战性的基准测试中也展现了顶尖性能,这些测试评估模型的数学、科学、知识和推理能力。
谷歌还针对之前 2.5 Pro 版本的反馈进行了改进,提升了其风格和结构——现在它能提供更有创意、格式更优的回答。
开发者可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 开始使用更新的 2.5 Pro 进行开发,此次还新增了「思考预算」功能,能让开发者更好地控制成本和延迟。
它也在 Gemini app 中正式上线。

网友实测
Gemini 2.5 Pro(06-05)在真实任务中表现如何?
劈柴的一张图,早已暗示了,Gemini 就是兽中之王。

网友们早已摩拳擦掌,开始了一波实测。
编码能力碾压 o3、Claude 4 并不只是说说而已,现在,Gemini 2.5 Pro 直接通过了六边形物理模拟测试。

更惊艳的是,它还能通过 Three.js 创建出 3D DNA 模型,效果非常逼真。
数据科学家 Diego 测试 Gemini 2.5 Pro 06-05 编写一段 Python 代码,可视化单行道中交通灯的工作原理,要求车辆以随机速率进入。

代码运行后的效果。
可以看出整体上动画还是比较精美的,没有什么太大的问题。
作为对比,下面是 GPT 4.5 生成代码的效果。
不仅画面粗糙,车子也不符合物理规律。
Diego 之前还测试了 Claude Sonnet 3.7 和 Grok 3,下面是这两个模型的表现。
大家可以评判一下,到底哪个模型更强。
Claude Sonnet 3.7
Grok 3
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

