--- title: "姚順宇谷歌首秀,Gemini 新模型刷爆 SOTA:人類僅剩 7 人捍衞碳基編程" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/275891427.md" description: "谷歌推出 Gemini 3 Deep Think 模型,取得 3455 Elo 分數,位列全球第 8,超越以往最高分 2727。該模型在 ARC-AGI-2 基準測試中得分 84.6%,刷新 SOTA,遠超 Claude Opus 4.6 的 68.8%。新模型旨在推動智能發展,解決科研和工程挑戰,具備分析草圖和生成 3D 打印文件的能力。清華物理系特獎得主姚順宇參與了該項目。" datetime: "2026-02-13T11:21:48.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/275891427.md) - [en](https://longbridge.com/en/news/275891427.md) - [zh-HK](https://longbridge.com/zh-HK/news/275891427.md) --- > 支持的語言: [简体中文](https://longbridge.com/zh-CN/news/275891427.md) | [English](https://longbridge.com/en/news/275891427.md) # 姚順宇谷歌首秀,Gemini 新模型刷爆 SOTA:人類僅剩 7 人捍衞碳基編程 面對 Claude Opus 4.6 和 GPT Codex 5.3 的猛烈攻勢,谷歌反手就是一個**Gemini 3 Deep Think**的重大升級。 在 Codeforces_(一個包含各種競技編程挑戰的基準測試平台)_上,它取得了驚人的**3455** Elo 分數,相當於**世界第 8 名**。 這下子,**全球只有 7 人的編程水平能排在它前面了**。而此前最高分是一年前 o3 拿下的 2727 Elo。 Gemini 3 Deep Think 的實力不止於此,它還直接把**ARC-AGI-2**——這個公認測試 AI 推理能力的前沿基準,給刷到了史無前例的**84.6%**。 要知道,之前最強模型的得分在 60%-70% 之間徘徊,Claude Opus 4.6 的成績也只有 68.8%。 在**人類最後考試(HLE)**上,Gemini 3 Deep Think 也刷新 SOTA,拿下了**48.4%**的成績。 官方表示,新版 Deep Think 是谷歌專門開發的推理模式,旨在推動智能前沿發展,並解決科學、研究和工程領域的現代挑戰。 另一位 “堯舜禹”——清華物理系傳奇特獎得主**姚順宇**(Shunyu Yao),去年 9 月加入谷歌 DeepMind,也是這次 Deep Think 新模型的參與者。 ## **新版 DeepThink 已經走進了實驗室** 升級後的 Gemini 3 Deep Think 實力究竟有多強? 它的野心不止於贏得基準測試,而是要**走進科研和工程領域**,幫助工程師處理複雜任務。 新版 Deep Think 可以分析草圖,對複雜形狀進行建模,並直接生成用於 3D 打印的實體文件。這是它打印的一個筆記本電腦支架: 谷歌 VP Josh Woodward 在 X 上曬出了打印的成果,看起來對草圖相當還原: 羅格斯大學的數學家 Lisa Carbone,利用 Gemini 3 Deep Think 審閲了一篇高度專業的數學論文。 結果 Gemini 3 Deep Think 成功地識別出了一個細微的邏輯缺陷,而這個缺陷在此前的人工同行評審中均未被發現。 杜克大學的王安實驗室,利用 Gemini 3 Deep Think 技術優化了複雜晶體生長的製備方法,以期發現新的半導體材料。 結果 Gemini 3 Deep Think 成功設計了一種能夠生長厚度大於 100 微米薄膜的工藝,達到了以往方法難以企及的精確目標。 在 X 上,DeepSeek 多模態團隊研究員 XiaoKang Chen 也表示:Gemini 3 Deep Think 非常擅長處理科學領域中的長尾任務。 他給 Deep Think 輸入了一張複雜分子結構的圖片,隨後模型便準確地計算出了分子式。 ## **勇奪三項新 SOTA,推理成本降低 82%** 去年 Deep Think 專門版已經 IMO 等國際競賽中奪下金牌。現在,全新升級後的 Deep Think 又在多項高難度的基準測試中全面刷新 SOTA: - 不使用任何工具,在 HLE 中取得新 SOTA——48.4%; - 在 ARC-AGI-2 測試中取得前所未有的 84.6% 的成績,並經 ARC Prize 基金會驗證; - 在 Codeforces 上取得了驚人的 3455 Elo 分數; - 在 2025 年國際數學奧林匹克競賽中達到金牌水平。 其中,ARC-AGI-2 被譽為 AI 界的 “圖靈測試”,旨在**衡量模型處理從未見過的新穎推理任務的能力**。 要知道,去年 12 月剛發佈的初代 Deep Think 得分還是 45.1%,不到三個月時間已經飆升到 84.6%,比 Opus 4.6 還要強出一截。 而在 ARC-AGI-1 上,Gemini 3 Deep Think 取得了 96% 的成績,直接頂到天花板了。 性能提升的同時,推理成本也在大幅下降。初代 Deep Think 執行每項任務的成本為 77.16 美元。此次升級讓成本降低了 82%,每項任務僅需**13.62 美元**。 由於 1 和 2 都被 Gemini 刷爆了,現在 ARC Prize 已經在構建 ARC-AGI-3 了…… 除了數學和編程,升級後的 Deep Think 在化學和物理等廣泛的科學領域同樣表現出色。 在 2025 年國際物理奧林匹克競賽和化學奧林匹克競賽中,Gemini 3 Deep Think 在筆試部分取得了金牌級別的成績。 此外,它還展現了在高等理論物理方面的能力,在 CMT-Benchmark 測試中取得了 50.5% 的分數。 ## **華人帶隊,打造最強推理模型** Gemini 3 Deep Think 的研發團隊中,有不少華人身影。 核心成員包括 95 後華人科學家**Yi Tay**,他在 Gemini 團隊中從事強化學習和推理方向的研究工作。 此前,他曾在 Google Brain 共同領導早期大語言模型項目,包括 PaLM-2、UL2 和 Flan-2。 在 Google Brain 工作 3 年多之後,2023–2024 年間,Yi Tay 曾短暫離開谷歌,作為聯合創始人創辦了一家獨角獸 AI 初創公司——Reka。 Reka AI 由 DeepMind、谷歌和 Meta 的研究人員創立,其創辦初衷是打造功能強大且高效的基礎模型,現在也開發界面設計、應用邏輯以及其他應用方面的工具。 在創業一年半後,Yi Tay 便重返谷歌 DeepMind,擔任高級資深研究科學家,繼續從事人工智能和大語言模型的研究。 去年剛從 Anthropic 跳槽到谷歌 DeepMind 的清華校友**姚順宇**,也參與了 Deep think 新模型的開發。 姚順宇本科就讀於清華大學物理系,曾拿下過清華本科生特等獎學金_(清華授予在校優秀本科生的最高獎學金榮譽)_。 本科期間,他就已在《Physical Review Letters》_(國際物理學領域最頂級的學術期刊之一)_發表高水平論文,首次在國際上給出了關於非厄米系統的拓撲能帶理論,不僅準確預測了相關現象,還定義了兩個新的物理概念。 本科畢業後,他赴斯坦福大學繼續攻讀博士,專注於量子多體混沌、開放量子系統動力學等前沿問題,師從 Douglas Stanford_(美國理論物理學家,被同行視為頂尖且有潛力改變物理學發展方向的年輕科學家之一)_、Zhenbin Yang_(楊振斌,華裔美國科學家,公認的 20 世紀最重要的物理學家之一)_等知名學者。 博士畢業後,他先是去 UC 伯克利做博士後研究,隨後加入了 Anthropic。在 Anthropic 工作的一年時間裏,他參與組建了強化學習基礎團隊,負責了 Claude 3.7 Sonnet 框架,以及 Claude 4 系列背後的基本強化學習理論。 離開 Anthropic 之後,姚順宇轉戰谷歌 DeepMind,繼續從事 AI 方面的研究。這次 Deep Think 新模型發佈,也是他在谷歌的**首秀之作**。 風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。 ### 相關股票 - [谷歌-C (GOOG.US)](https://longbridge.com/zh-HK/quote/GOOG.US.md) - [2 倍做多谷歌 ETF - Direxion (GGLL.US)](https://longbridge.com/zh-HK/quote/GGLL.US.md) - [谷歌-A (GOOGL.US)](https://longbridge.com/zh-HK/quote/GOOGL.US.md) - [Roundhill GOOGL WeeklyPay ETF (GOOW.US)](https://longbridge.com/zh-HK/quote/GOOW.US.md) ## 相關資訊與研究 - [翻新機商 Back Market 攜手 Google 推 ChromeOS Flex USB 隨身碟,讓你的舊電腦重獲新生](https://longbridge.com/zh-HK/news/277767189.md) - [Google Gemini 3.1 新模型掀桌 每秒狂飆 363 token 價格碾壓 Claude](https://longbridge.com/zh-HK/news/277710565.md) - [韓國解禁 19 年限制!允許 Google Maps 全面上線,Naver、Kakao 地圖霸主地位恐受衝擊](https://longbridge.com/zh-HK/news/277717578.md) - [拒絕五角大樓後,Anthropic 登頂全球 AI 產品榜首,一眾名人抵制其競對 OpenAI](https://longbridge.com/zh-HK/news/277417604.md) - [糖尿病人工智慧模型導入基層醫療,健康存摺加入 Gemini 衞教助理](https://longbridge.com/zh-HK/news/277762418.md)