<div id="readability-page-1">凌晨，谷歌帶着全新的 Gemini 2.5 Pro 炸場了！ 僅一個月的時間，Gemini 2.5 Pro（06-05）直接幹趴了 I/O 大會放出的 Gemini 2.5 Pro（05-06）。 果然，能打敗谷歌的，只有谷歌自己。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/101b18e2-982b-4228-94b6-17b2e1c33dfb.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="1206" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/101b18e2-982b-4228-94b6-17b2e1c33dfb.jpeg"/> 這次，Gemini 2.5 Pro（06-05）依舊是所有榜一。 在數學、編程、推理基準測試中，新版模型全部刷新 SOTA，完全碾壓 o3、Claude 4、DeepSeek-R1。 相較於上一代，Gemini 2.5 Pro 整體 Elo 提升了 24 分，尤其是在 Web Arena 上 Elo 提升了足足 35 分。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/404b6ad3-b3f3-4057-a309-520a1d4789ff.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="576" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/404b6ad3-b3f3-4057-a309-520a1d4789ff.jpeg"/> 值得一提的是，更新後版本 token 依舊維持原價，性價比極高，輸出價格僅為 o3 的四分之一，Claude 4 就更別提了。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c404a966-9bf2-46cc-b9aa-66823e4f9287.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="237" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c404a966-9bf2-46cc-b9aa-66823e4f9287.jpeg"/> 而且，Gemini 2.5 Pro（06-05）還引入了「思考預算」，最高達 32k，還改進了函數調用等功能。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/85cb0c9f-7836-4b9b-aa0a-fe060be45a17?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="960" height="540" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/85cb0c9f-7836-4b9b-aa0a-fe060be45a17"/> <h2>Gemini 2.5 數學編碼再進化，所有榜一</h2> 新版 Gemini 2.5 Pro（06-05）和舊版 Gemini 2.5 Pro（05-06），名字後面版本的時間，值得玩味。 很明顯，谷歌這次特意選擇在這個時間點放出新模型。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/ff083b48-d498-4014-b387-abf89ac11f7a.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="768" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/ff083b48-d498-4014-b387-abf89ac11f7a.jpeg"/> 根據官博介紹，此次是 Gemini 2.5 Pro 的升級預覽版，這是谷歌迄今最智能的模型。 升級基於 5 月 I/O 大會展示的基礎上，這個模型將在幾周後成為普遍可用的穩定版本，適合企業級應用。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9d521f15-594a-40ef-b991-8dec06c32e6a.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="360" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9d521f15-594a-40ef-b991-8dec06c32e6a.jpeg"/> 最新的 2.5 Pro 在 LMArena 排行榜上 Elo 分數躍升 24 分，達到了 1470，穩居榜首。 更誇張的是，它在所有領域裏都排名第一。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/675d1d23-4f80-4878-b106-8a14db69ea4d.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="778" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/675d1d23-4f80-4878-b106-8a14db69ea4d.jpeg"/> 在 WebDevArena 上實現了 35 分的 Elo 評分飛躍，達到 1443 分。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/5e365d58-c359-49f7-abea-02a3710b880e.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="778" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/5e365d58-c359-49f7-abea-02a3710b880e.jpeg"/> 它在編程方面表現卓越，在 Aider Polyglot 等高難度編程基準測試中名列前茅。 同時，它在 GPQA 和「人類最後考試」（HLE）等極具挑戰性的基準測試中也展現了頂尖性能，這些測試評估模型的數學、科學、知識和推理能力。 谷歌還針對之前 2.5 Pro 版本的反饋進行了改進，提升了其風格和結構——現在它能提供更有創意、格式更優的回答。 開發者可以通過 Google AI Studio 和 Vertex AI 中的 Gemini API 開始使用更新的 2.5 Pro 進行開發，此次還新增了「思考預算」功能，能讓開發者更好地控制成本和延遲。 它也在 Gemini app 中正式上線。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0db63d0d-caa0-46ff-8db0-efad0bb3425a.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="1450" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0db63d0d-caa0-46ff-8db0-efad0bb3425a.jpeg"/> <h2>網友實測</h2> Gemini 2.5 Pro（06-05）在真實任務中表現如何？ 劈柴的一張圖，早已暗示了，Gemini 就是獸中之王。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d8d91d59-ffc9-44f2-91fc-830504c2d56e.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="1043" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d8d91d59-ffc9-44f2-91fc-830504c2d56e.jpeg"/> 網友們早已摩拳擦掌，開始了一波實測。 編碼能力碾壓 o3、Claude 4 並不只是説説而已，現在，Gemini 2.5 Pro 直接通過了六邊形物理模擬測試。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/848850c1-f5e8-4fe7-9113-615470dde68e.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="490" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/848850c1-f5e8-4fe7-9113-615470dde68e.jpeg"/> <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/38ac9733-0ae3-4995-a9af-1f46f5162678?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="960" height="540" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/38ac9733-0ae3-4995-a9af-1f46f5162678"/> 更驚豔的是，它還能通過 Three.js 創建出 3D DNA 模型，效果非常逼真。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/204111d4-3056-4479-85f7-e8b129b29980?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="960" height="540" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/204111d4-3056-4479-85f7-e8b129b29980"/> 數據科學家 Diego 測試 Gemini 2.5 Pro 06-05 編寫一段 Python 代碼，可視化單行道中交通燈的工作原理，要求車輛以隨機速率進入。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1058d979-9120-432f-879b-9fce02d470e6.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="343" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1058d979-9120-432f-879b-9fce02d470e6.jpeg"/> 代碼運行後的效果。 可以看出整體上動畫還是比較精美的，沒有什麼太大的問題。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4b9aa0d3-36f7-40b3-b06c-ca438166234f?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="496" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4b9aa0d3-36f7-40b3-b06c-ca438166234f"/> 作為對比，下面是 GPT 4.5 生成代碼的效果。 不僅畫面粗糙，車子也不符合物理規律。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/15ec118d-6e47-416a-bda2-5dac144a0033?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="708" height="360" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/15ec118d-6e47-416a-bda2-5dac144a0033"/> Diego 之前還測試了 Claude Sonnet 3.7 和 Grok 3，下面是這兩個模型的表現。 大家可以評判一下，到底哪個模型更強。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/68e5dca2-818e-4915-aac5-0f15d8d328fb?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="983" height="640" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/68e5dca2-818e-4915-aac5-0f15d8d328fb"/> Claude Sonnet 3.7 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d3b83014-b6ef-47af-a159-38a6d6e46851?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="875" height="640" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d3b83014-b6ef-47af-a159-38a6d6e46851"/> Grok 3 風險提示及免責條款 市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。</div>

谷歌-C

1 倍做空谷歌 ETF - Direxion

2 倍做多谷歌 ETF - Direxion

谷歌推出新版 Gemini 2.5 Pro，迅速在各項基準測試中取得領先，全面擊敗 o3 和 Claude 4。新模型在數學、編程和推理測試中刷新 SOTA，Elo 評分提升 24 分，Web Arena 上更是提升 35 分。Gemini 2.5 Pro 保持原價，性價比高，且引入了「思考預算」等新功能，預計幾周後將成為穩定版本，適合企業級應用。

- 谷歌發佈 Gemini 2.5 Pro（06-05），在基準測試中表現優異。  
- 新版模型在數學、編程等領域刷新 SOTA，Elo 提升 24 分。  
- Gemini 2.5 Pro 性價比高，適合企業級應用，已在 Gemini app 上線。  

新版 Gemini 2.5 拿下所有榜一，谷歌無敵了！一個月全面擊敗 o3，編程反超 Claude 4