---
title: "姚順宇谷歌首秀，Gemini 新模型刷爆 SOTA：人類僅剩 7 人捍衞碳基編程"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/275891427.md"
description: "谷歌推出 Gemini 3 Deep Think 模型，取得 3455 Elo 分數，位列全球第 8，超越以往最高分 2727。該模型在 ARC-AGI-2 基準測試中得分 84.6%，刷新 SOTA，遠超 Claude Opus 4.6 的 68.8%。新模型旨在推動智能發展，解決科研和工程挑戰，具備分析草圖和生成 3D 打印文件的能力。清華物理系特獎得主姚順宇參與了該項目。"
datetime: "2026-02-13T11:21:48.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/275891427.md)
  - [en](https://longbridge.com/en/news/275891427.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/275891427.md)
---

> 支持的語言: [简体中文](https://longbridge.com/zh-CN/news/275891427.md) | [English](https://longbridge.com/en/news/275891427.md)


# 姚順宇谷歌首秀，Gemini 新模型刷爆 SOTA：人類僅剩 7 人捍衞碳基編程

面對 Claude Opus 4.6 和 GPT Codex 5.3 的猛烈攻勢，谷歌反手就是一個**Gemini 3 Deep Think**的重大升級。

在 Codeforces_（一個包含各種競技編程挑戰的基準測試平台）_上，它取得了驚人的**3455** Elo 分數，相當於**世界第 8 名**。

這下子，**全球只有 7 人的編程水平能排在它前面了**。而此前最高分是一年前 o3 拿下的 2727 Elo。

Gemini 3 Deep Think 的實力不止於此，它還直接把**ARC-AGI-2**——這個公認測試 AI 推理能力的前沿基準，給刷到了史無前例的**84.6%**。

要知道，之前最強模型的得分在 60%-70% 之間徘徊，Claude Opus 4.6 的成績也只有 68.8%。

在**人類最後考試（HLE）**上，Gemini 3 Deep Think 也刷新 SOTA，拿下了**48.4%**的成績。

官方表示，新版 Deep Think 是谷歌專門開發的推理模式，旨在推動智能前沿發展，並解決科學、研究和工程領域的現代挑戰。

另一位 “堯舜禹”——清華物理系傳奇特獎得主**姚順宇**（Shunyu Yao），去年 9 月加入谷歌 DeepMind，也是這次 Deep Think 新模型的參與者。

## **新版 DeepThink 已經走進了實驗室**

升級後的 Gemini 3 Deep Think 實力究竟有多強？

它的野心不止於贏得基準測試，而是要**走進科研和工程領域**，幫助工程師處理複雜任務。

新版 Deep Think 可以分析草圖，對複雜形狀進行建模，並直接生成用於 3D 打印的實體文件。這是它打印的一個筆記本電腦支架：

谷歌 VP Josh Woodward 在 X 上曬出了打印的成果，看起來對草圖相當還原：

羅格斯大學的數學家 Lisa Carbone，利用 Gemini 3 Deep Think 審閲了一篇高度專業的數學論文。

結果 Gemini 3 Deep Think 成功地識別出了一個細微的邏輯缺陷，而這個缺陷在此前的人工同行評審中均未被發現。

杜克大學的王安實驗室，利用 Gemini 3 Deep Think 技術優化了複雜晶體生長的製備方法，以期發現新的半導體材料。

結果 Gemini 3 Deep Think 成功設計了一種能夠生長厚度大於 100 微米薄膜的工藝，達到了以往方法難以企及的精確目標。

在 X 上，DeepSeek 多模態團隊研究員 XiaoKang Chen 也表示：Gemini 3 Deep Think 非常擅長處理科學領域中的長尾任務。

他給 Deep Think 輸入了一張複雜分子結構的圖片，隨後模型便準確地計算出了分子式。

## **勇奪三項新 SOTA，推理成本降低 82%**

去年 Deep Think 專門版已經 IMO 等國際競賽中奪下金牌。現在，全新升級後的 Deep Think 又在多項高難度的基準測試中全面刷新 SOTA：

-   不使用任何工具，在 HLE 中取得新 SOTA——48.4%；
-   在 ARC-AGI-2 測試中取得前所未有的 84.6% 的成績，並經 ARC Prize 基金會驗證；
-   在 Codeforces 上取得了驚人的 3455 Elo 分數；
-   在 2025 年國際數學奧林匹克競賽中達到金牌水平。

其中，ARC-AGI-2 被譽為 AI 界的 “圖靈測試”，旨在**衡量模型處理從未見過的新穎推理任務的能力**。

要知道，去年 12 月剛發佈的初代 Deep Think 得分還是 45.1%，不到三個月時間已經飆升到 84.6%，比 Opus 4.6 還要強出一截。

而在 ARC-AGI-1 上，Gemini 3 Deep Think 取得了 96% 的成績，直接頂到天花板了。

性能提升的同時，推理成本也在大幅下降。初代 Deep Think 執行每項任務的成本為 77.16 美元。此次升級讓成本降低了 82%，每項任務僅需**13.62 美元**。

由於 1 和 2 都被 Gemini 刷爆了，現在 ARC Prize 已經在構建 ARC-AGI-3 了……

除了數學和編程，升級後的 Deep Think 在化學和物理等廣泛的科學領域同樣表現出色。

在 2025 年國際物理奧林匹克競賽和化學奧林匹克競賽中，Gemini 3 Deep Think 在筆試部分取得了金牌級別的成績。

此外，它還展現了在高等理論物理方面的能力，在 CMT-Benchmark 測試中取得了 50.5% 的分數。

## **華人帶隊，打造最強推理模型**

Gemini 3 Deep Think 的研發團隊中，有不少華人身影。

核心成員包括 95 後華人科學家**Yi Tay**，他在 Gemini 團隊中從事強化學習和推理方向的研究工作。

此前，他曾在 Google Brain 共同領導早期大語言模型項目，包括 PaLM-2、UL2 和 Flan-2。

在 Google Brain 工作 3 年多之後，2023–2024 年間，Yi Tay 曾短暫離開谷歌，作為聯合創始人創辦了一家獨角獸 AI 初創公司——Reka。

Reka AI 由 DeepMind、谷歌和 Meta 的研究人員創立，其創辦初衷是打造功能強大且高效的基礎模型，現在也開發界面設計、應用邏輯以及其他應用方面的工具。

在創業一年半後，Yi Tay 便重返谷歌 DeepMind，擔任高級資深研究科學家，繼續從事人工智能和大語言模型的研究。

去年剛從 Anthropic 跳槽到谷歌 DeepMind 的清華校友**姚順宇**，也參與了 Deep think 新模型的開發。

姚順宇本科就讀於清華大學物理系，曾拿下過清華本科生特等獎學金_（清華授予在校優秀本科生的最高獎學金榮譽）_。

本科期間，他就已在《Physical Review Letters》_（國際物理學領域最頂級的學術期刊之一）_發表高水平論文，首次在國際上給出了關於非厄米系統的拓撲能帶理論，不僅準確預測了相關現象，還定義了兩個新的物理概念。

本科畢業後，他赴斯坦福大學繼續攻讀博士，專注於量子多體混沌、開放量子系統動力學等前沿問題，師從 Douglas Stanford_（美國理論物理學家，被同行視為頂尖且有潛力改變物理學發展方向的年輕科學家之一）_、Zhenbin Yang_（楊振斌，華裔美國科學家，公認的 20 世紀最重要的物理學家之一）_等知名學者。

博士畢業後，他先是去 UC 伯克利做博士後研究，隨後加入了 Anthropic。在 Anthropic 工作的一年時間裏，他參與組建了強化學習基礎團隊，負責了 Claude 3.7 Sonnet 框架，以及 Claude 4 系列背後的基本強化學習理論。

離開 Anthropic 之後，姚順宇轉戰谷歌 DeepMind，繼續從事 AI 方面的研究。這次 Deep Think 新模型發佈，也是他在谷歌的**首秀之作**。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

### 相關股票

- [谷歌-C (GOOG.US)](https://longbridge.com/zh-HK/quote/GOOG.US.md)
- [2 倍做多谷歌 ETF - Direxion (GGLL.US)](https://longbridge.com/zh-HK/quote/GGLL.US.md)
- [谷歌-A (GOOGL.US)](https://longbridge.com/zh-HK/quote/GOOGL.US.md)
- [Roundhill GOOGL WeeklyPay ETF (GOOW.US)](https://longbridge.com/zh-HK/quote/GOOW.US.md)

## 相關資訊與研究

- [翻新機商 Back Market 攜手 Google 推 ChromeOS Flex USB 隨身碟，讓你的舊電腦重獲新生](https://longbridge.com/zh-HK/news/277767189.md)
- [Google Gemini 3.1 新模型掀桌 每秒狂飆 363 token 價格碾壓 Claude](https://longbridge.com/zh-HK/news/277710565.md)
- [韓國解禁 19 年限制！允許 Google Maps 全面上線，Naver、Kakao 地圖霸主地位恐受衝擊](https://longbridge.com/zh-HK/news/277717578.md)
- [拒絕五角大樓後，Anthropic 登頂全球 AI 產品榜首，一眾名人抵制其競對 OpenAI](https://longbridge.com/zh-HK/news/277417604.md)
- [糖尿病人工智慧模型導入基層醫療，健康存摺加入 Gemini 衞教助理](https://longbridge.com/zh-HK/news/277762418.md)