<div id="readability-page-1">凌晨，谷歌带着全新的 Gemini 2.5 Pro 炸场了！ 仅一个月的时间，Gemini 2.5 Pro（06-05）直接干趴了 I/O 大会放出的 Gemini 2.5 Pro（05-06）。 果然，能打败谷歌的，只有谷歌自己。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/101b18e2-982b-4228-94b6-17b2e1c33dfb.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="1206" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/101b18e2-982b-4228-94b6-17b2e1c33dfb.jpeg"/> 这次，Gemini 2.5 Pro（06-05）依旧是所有榜一。 在数学、编程、推理基准测试中，新版模型全部刷新 SOTA，完全碾压 o3、Claude 4、DeepSeek-R1。 相较于上一代，Gemini 2.5 Pro 整体 Elo 提升了 24 分，尤其是在 Web Arena 上 Elo 提升了足足 35 分。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/404b6ad3-b3f3-4057-a309-520a1d4789ff.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="576" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/404b6ad3-b3f3-4057-a309-520a1d4789ff.jpeg"/> 值得一提的是，更新后版本 token 依旧维持原价，性价比极高，输出价格仅为 o3 的四分之一，Claude 4 就更别提了。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c404a966-9bf2-46cc-b9aa-66823e4f9287.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="237" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c404a966-9bf2-46cc-b9aa-66823e4f9287.jpeg"/> 而且，Gemini 2.5 Pro（06-05）还引入了「思考预算」，最高达 32k，还改进了函数调用等功能。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/85cb0c9f-7836-4b9b-aa0a-fe060be45a17?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="960" height="540" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/85cb0c9f-7836-4b9b-aa0a-fe060be45a17"/> <h2>Gemini 2.5 数学编码再进化，所有榜一</h2> 新版 Gemini 2.5 Pro（06-05）和旧版 Gemini 2.5 Pro（05-06），名字后面版本的时间，值得玩味。 很明显，谷歌这次特意选择在这个时间点放出新模型。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/ff083b48-d498-4014-b387-abf89ac11f7a.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="768" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/ff083b48-d498-4014-b387-abf89ac11f7a.jpeg"/> 根据官博介绍，此次是 Gemini 2.5 Pro 的升级预览版，这是谷歌迄今最智能的模型。 升级基于 5 月 I/O 大会展示的基础上，这个模型将在几周后成为普遍可用的稳定版本，适合企业级应用。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9d521f15-594a-40ef-b991-8dec06c32e6a.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="360" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9d521f15-594a-40ef-b991-8dec06c32e6a.jpeg"/> 最新的 2.5 Pro 在 LMArena 排行榜上 Elo 分数跃升 24 分，达到了 1470，稳居榜首。 更夸张的是，它在所有领域里都排名第一。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/675d1d23-4f80-4878-b106-8a14db69ea4d.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="778" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/675d1d23-4f80-4878-b106-8a14db69ea4d.jpeg"/> 在 WebDevArena 上实现了 35 分的 Elo 评分飞跃，达到 1443 分。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/5e365d58-c359-49f7-abea-02a3710b880e.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="778" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/5e365d58-c359-49f7-abea-02a3710b880e.jpeg"/> 它在编程方面表现卓越，在 Aider Polyglot 等高难度编程基准测试中名列前茅。 同时，它在 GPQA 和「人类最后考试」（HLE）等极具挑战性的基准测试中也展现了顶尖性能，这些测试评估模型的数学、科学、知识和推理能力。 谷歌还针对之前 2.5 Pro 版本的反馈进行了改进，提升了其风格和结构——现在它能提供更有创意、格式更优的回答。 开发者可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 开始使用更新的 2.5 Pro 进行开发，此次还新增了「思考预算」功能，能让开发者更好地控制成本和延迟。 它也在 Gemini app 中正式上线。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0db63d0d-caa0-46ff-8db0-efad0bb3425a.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="1450" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0db63d0d-caa0-46ff-8db0-efad0bb3425a.jpeg"/> <h2>网友实测</h2> Gemini 2.5 Pro（06-05）在真实任务中表现如何？ 劈柴的一张图，早已暗示了，Gemini 就是兽中之王。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d8d91d59-ffc9-44f2-91fc-830504c2d56e.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="1043" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d8d91d59-ffc9-44f2-91fc-830504c2d56e.jpeg"/> 网友们早已摩拳擦掌，开始了一波实测。 编码能力碾压 o3、Claude 4 并不只是说说而已，现在，Gemini 2.5 Pro 直接通过了六边形物理模拟测试。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/848850c1-f5e8-4fe7-9113-615470dde68e.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="490" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/848850c1-f5e8-4fe7-9113-615470dde68e.jpeg"/> <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/38ac9733-0ae3-4995-a9af-1f46f5162678?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="960" height="540" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/38ac9733-0ae3-4995-a9af-1f46f5162678"/> 更惊艳的是，它还能通过 Three.js 创建出 3D DNA 模型，效果非常逼真。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/204111d4-3056-4479-85f7-e8b129b29980?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="960" height="540" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/204111d4-3056-4479-85f7-e8b129b29980"/> 数据科学家 Diego 测试 Gemini 2.5 Pro 06-05 编写一段 Python 代码，可视化单行道中交通灯的工作原理，要求车辆以随机速率进入。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1058d979-9120-432f-879b-9fce02d470e6.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="343" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1058d979-9120-432f-879b-9fce02d470e6.jpeg"/> 代码运行后的效果。 可以看出整体上动画还是比较精美的，没有什么太大的问题。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4b9aa0d3-36f7-40b3-b06c-ca438166234f?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="496" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4b9aa0d3-36f7-40b3-b06c-ca438166234f"/> 作为对比，下面是 GPT 4.5 生成代码的效果。 不仅画面粗糙，车子也不符合物理规律。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/15ec118d-6e47-416a-bda2-5dac144a0033?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="708" height="360" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/15ec118d-6e47-416a-bda2-5dac144a0033"/> Diego 之前还测试了 Claude Sonnet 3.7 和 Grok 3，下面是这两个模型的表现。 大家可以评判一下，到底哪个模型更强。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/68e5dca2-818e-4915-aac5-0f15d8d328fb?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="983" height="640" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/68e5dca2-818e-4915-aac5-0f15d8d328fb"/> Claude Sonnet 3.7 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d3b83014-b6ef-47af-a159-38a6d6e46851?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="875" height="640" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d3b83014-b6ef-47af-a159-38a6d6e46851"/> Grok 3 风险提示及免责条款 市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。</div>

谷歌-C

1 倍做空谷歌 ETF - Direxion

2 倍做多谷歌 ETF - Direxion

谷歌推出新版 Gemini 2.5 Pro，迅速在各项基准测试中取得领先，全面击败 o3 和 Claude 4。新模型在数学、编程和推理测试中刷新 SOTA，Elo 评分提升 24 分，Web Arena 上更是提升 35 分。Gemini 2.5 Pro 保持原价，性价比高，且引入了「思考预算」等新功能，预计几周后将成为稳定版本，适合企业级应用。

- 谷歌发布 Gemini 2.5 Pro（06-05），在基准测试中表现优异。  
- 新版模型在数学、编程等领域刷新 SOTA，Elo 提升 24 分。  
- Gemini 2.5 Pro 性价比高，适合企业级应用，已在 Gemini app 上线。  

新版 Gemini 2.5 拿下所有榜一，谷歌无敌了！一个月全面击败 o3，编程反超 Claude 4