Gemini 3 的 “關鍵躍遷” -- 驅動 AI 應用落地的 “重大突破”?

華爾街見聞
2025.11.24 03:30
portai
我是 PortAI,我可以總結文章信息。

谷歌發佈 Gemini 3 系列模型,標誌着多模態理解、推理與 Agent 能力的全面躍遷。Gemini 3 Pro 在多模態理解、推理與長期規劃能力上表現突出,尤其是 Screen UnderStanding 能力。Nano Banana Pro 解決圖像生成中文本渲染錯誤,Antigravity 提供 AI 驅動 IDE 與多智能體管理界面。Gemini 3 的突破對 AI 應用落地具有關鍵意義,尤其在結構化/非結構化文檔解讀方面。

核心觀點

Gemini 3 發佈,模型能力全方位突破。谷歌近期連續發佈了 Gemini 3 系列模型、Nano Banana Pro 圖像模型,以及全新開發平台 Antigravity,標誌着多模態理解、推理與 Agent 能力的全面躍遷。1)Gemini 3 Pro 多模態理解能力尤其是 Screen UnderStanding 能力登頂;推理與長期規劃能力顯著提升,在 Vending-Bench 2 長期任務測試中表現最佳;Deep Think 模式突破 AGI 相關推理:ARC-AGI 評測高達 45.1%;Agentic 能力:編程和工具使用能力增強,更可靠執行多步驟任務。2)Nano Banana Pro:具備物理邏輯的圖像生成,完美的解決圖像生成中文本渲染錯誤痛點,與現實世界知識結合,支持專業視覺內容製作。3)Antigravity:智能工作台:提供 AI 驅動 IDE 與多智能體管理界面,智能體有專屬的工作空間。

Screen UnderStanding 是本次躍遷的關鍵。我們認為 Gemini 3 的多模態理解能力,尤其是 Screen UnderStanding 能力的大幅提高是驅動 AI 應用落地的關鍵突破。Gemini 3 Pro 在 ScreenShot-Pro 評測基準大幅領先 Claude Sonnet 4.5 和 GPT 5.1。Gemini 3 Pro 能精準解讀結構化/非結構化文檔,對發票、合同、研究文檔等場景意義重大。Screen UnderStanding 對未來 AI 進一步發展具有里程碑意義:(1)通過屏幕理解直接操作 GUI,不再依賴 API。這意味着 AI 可操作沒有 API 的軟件,Agent 能真正執行看屏幕、點按鈕的人類工作流程大幅擴展自動化場景。(2) 通向物理機器人能力的橋樑:模型學會理解屏幕上的按鈕並點擊與機器人理解世界並行動的邏輯高度同構,未來可自然遷移到機器人對設備面板、儀表、工具界面的識別與操作。

自定義 Agent 展望,每個人自己的工作與生活助手。大模型快速迭代,推理與工具調用能力持續增強,催生了越來越強的自定義 Agent 應用前景。對金融機構尤其是二級買賣方而言,我們展望未來可探索以下方向:1)構建個人投研知識庫,支持資料檢索、分析和分享彙報;2)打造智能羣發助手,實現帶稱呼的差異化羣發及後續自動回覆閉環;3)利用 Agent 整理微信消息、研報、公眾號等海量信息,並按個性化規則提煉要點;4)個性化的研究助理,指定大模型的輸出風格如分析時需要附上權威信息來源;5)通過簡單對話就能靠 AI 編程能力製作數據分析、合規底稿助手、報銷助手等實用工具;6)類似美團 “小美” 的生活助手,且同時對接競爭廠商平台,實現各種生活服務整合。

報告正文

01 Gemini 3 發佈,模型能力全方位突破

谷歌近期連續發佈了旗艦模型 Gemini 3 系列、圖像模型 Nano Banana Pro,以及創新性的開發平台 Antigravity。我們認為這標誌着大模型能力的關鍵躍遷,這些發佈不僅在多模態理解和推理能力上設定了新標杆,更在 Agent 和機器人技術的未來應用方面,展現了重大的潛力:

Gemini 3 Pro:多模態推理與卓越的 Agent 能力

Gemini 3 Pro 核心突破體現在以下幾個方面:

世界領先的多模態理解:模型能夠處理和理解文本、圖像、視頻、音頻乃至代碼等多種模態的數據,並在這些複雜數據之間進行推理,達到了前所未有的細緻程度。Gemini 3 Pro 在 Screen UnderStanding 任務方面表現尤其出色,在 ScreenShot-Pro 評測基準得分 72.7%,大幅領先 Claude Sonnet 4.5(36.2%)和 GPT 5.1(3.5%)。

卓越的推理和規劃能力:

自從 Gemini 2 開啓 Agent 時代以來,谷歌取得了許多進展,不僅提升了 Gemini 的編碼代理能力,還改進了其在更長時間跨度內可靠規劃的能力。Gemini 3 在 Vending-Bench 2 上的榜首表現證明了這一點,該測試通過管理模擬的自動販賣機業務來測試長期規劃能力。Gemini 3 Pro 在整整一年的模擬運營中,保持了一致的工具使用和決策能力,在不偏離任務的情況下帶來了更高的回報:

Gemini 3 Deep Think 模式進一步突破了智慧的界限,在測試中,Gemini 3 Deep Think 在 Humanity’s Last Exam(未使用工具的情況下得分 41.0%)和 GPQA Diamond(93.8%)的表現,甚至超越了 Gemini 3 Pro 原本就令人印象深刻的成績。它還在 ARC-AGI(包含代碼執行,ARC Prize Verified)上取得了前所未有的 45.1%,展現瞭解決新穎挑戰的能力。

增強的 Agent 能力: Gemini3 帶來了卓越的指令執行能力,顯著改進工具使用和智能編碼。更高效的工具使用:同時執行多步驟任務。Gemini3 的智能體功能可以構建更實用、更智能的個人 AI 助手。

Nano Banana Pro (Gemini 3 Pro Image):視覺世界的邏輯與物理

物理感知推理:據視頻生成平台 Higgsfield 官網,Nano Banana Pro 超越了簡單的擴散模型。它在渲染場量之前進行場景規劃,提供原生 2K 分辨率、物理精確的光照和完美的文本渲染。

生成清晰文本:Nano Banana Pro 解決了圖像生成中的一大痛點——文字錯誤。清晰易讀的文字有助於製作海報、複雜的圖表和精細的產品模型。用户可以描述所需的字體類型,或模擬不同的手寫字體。

理解現實世界的知識:利用 Gemini 模型對現實世界的瞭解和強大的推理能力,Nano Banana Pro 可以生成精準、細緻、豐富的圖像結果。可以為圖片添加註釋,將數據轉化為信息圖表,或將手寫筆記轉換為圖表:

Antigravity:全新的智能開發平台

如果説 Gemini 3 是 “大腦”,Antigravity 就是讓大腦手腳並用的 “工作台”。 Antigravity 的開發初衷是,智能體不應該僅僅是側邊欄裏的聊天機器人;它們應該擁有自己專屬的工作空間。該平台提供了兩種與代碼交互的獨特方式:

編輯器視圖:當用户需要親自動手操作時,用户將獲得一個最先進的、由人工智能驅動的 IDE,它配備了 Tab 鍵自動補全和內聯命令,以支持用户已經熟悉的同步工作流程。

管理界面:這是一個專用界面,用户可以在其中創建、協調和觀察多個智能體在不同工作區中異步工作的情況。

02 Screen UnderStanding 是本次躍遷的關鍵

我們認為 Gemini 3 的多模態理解能力,尤其是 Screen UnderStanding 能力的大幅提高是驅動 AI 應用落地的關鍵突破。Gemini 3 Pro 在 ScreenShot-Pro 評測基準大幅領先 Claude Sonnet 4.5 和 GPT 5.1。

據 Squared報道,Gemini 3 Pro 在文檔理解方面表現出色。它能夠清晰地讀取和解讀結構化和非結構化內容,並能對文檔進行推理,而不僅僅是提取信息。我們認為,對於處理發票、合同等文件和數據研究的公司而言是一項重大優勢。

在示例演示中,模型將圖像轉換為交互式網頁體驗。Gemini 3 Pro 在生成功能代碼之前,會分析對象、佈局和含義。這種程度的轉換標誌着人工智能參與界面設計和功能開發的方式發生了轉變。

空間推理能力的提升使該模型能夠支持自動駕駛車輛、機器人、擴展現實硬件和智能設備系統中的任務。Gemini 3 Pro 可以預測軌跡、識別物體關係並分析任務進展。我們認為這為下一代自動化解決方案奠定了基礎。

該模型的屏幕理解功能在桌面和移動系統上均展現出卓越的性能。它能夠讀取界面元素,通過鼠標移動檢測用户意圖,並將標註轉化為操作。演示表明,人工智能能夠根據簡單的手繪指令執行任務。這標誌着用户與數字環境交互方式的重大轉變。

視頻推理進一步擴展了這些功能。Gemini3 Pro 能夠處理快速動作,識別關鍵事件,並在長時間的視頻素材中保持上下文關聯。這有助於開發人員生成詳細的摘要、提取關鍵幀並構建視頻分析代理。這項功能對於監控分析、體育分析、培訓系統和創意視頻製作至關重要。

Screen UnderStanding 對未來 AI 應用進一步落地的重大意義還包括:

1、打通 Agent 與數字世界交互的 API 開放程度障礙:我們認為通過 API 調用(Function Calling)的方式使用工具受限於軟件接口的開放程度。擁有 Screen Understanding 的模型,可以直接操作任何為人類設計的圖形界面(GUI)。這意味着 Agent 可以操作沒有 API 的工具,極大地擴展了 AI 的各種應用場景。AI 可以從輔助工具正式進化為數字員工。它不再需要人類把任務翻譯成代碼,而是直接像人類員工一樣,看着屏幕,操作軟件,完成工作。

2、邁向物理世界機器人的橋樑: 我們認為屏幕本質上是一個高維度的、動態的視覺環境。模型學會 “理解屏幕上的按鈕並點擊” 所需要的感知 - 決策 - 行動閉環,與機器人 “理解桌子上的杯子並抓取” 在底層邏輯上是高度同構的。而且對於物理機器人而言,這項能力可以擴展到對真實世界環境(如操作面板、設備儀表、複雜工具界面)的識別和操作。

03 自定義 Agent 展望,每個人自己的工作與生活助手

當前大模型在不斷迭代,推理能力與工具使用能力不斷升級,基於大模型創造的 Agent 能力越來越強。作為金融機構從業人員,我們展望了以下未來可能利用大模型製作的自定義 Agent,尤其是對二級買賣方可能較實用的應用:

1.個人投研知識庫
當前許多大模型或是原生 AI 應用已經具備了知識庫的能力,例如騰訊的工作助手 ima 即可輕鬆保存個人資料並後續進行問答。我們展望未來,對於金融機構從業者,可將日常積累的上市公司調研紀要、行業專家訪談記錄、內部策略會觀點等核心資料導入知識庫,Agent 幫助進行信息檢索以及分析。在協作場景中,研究員無需傳輸海量文件,僅需向同事開放特定主題的檢索權限(如 “共享算力產業鏈的政策解讀類資料”),且能通過 Agent 追蹤資料的引用軌跡與反饋意見。面向客户彙報時,Agent 可快速根據彙報主題聚合相關研究成果,自動生成帶數據支撐的觀點摘要,大幅縮短材料籌備時間。

2.更智能的羣發助手

目前微信已經有羣發功能,我們展望未來,如果微信能在用户允許的情況下分析對每個好友的聊天記錄,則可以做到更智能化的羣發,如在羣發時自動添加差異化的稱呼,並附上貼合對方關注點的開場白。更進一步,Agent 可能實現羣發後再智能回覆的閉環處理:收到客户的即時問詢後,自動提取問題核心,分析羣發內容以及自己個人的知識庫生成初步回覆。

3.微信消息等海量信息整理
對許多工種例如金融從業者,工作上如果微信消息、郵件等內容太多,信息過載成為影響決策效率的核心痛點,我們展望未來,用户自定義的 Agent 可以用大模型迅速提煉要點。騰訊雲開發者社區就有使用 AI 把微信聊天記錄變成可視化報告的案例。
另外其他信息比如每天更新的券商研報、關注的公眾號等內容也可以用 AI 進行摘要。從業者可向 Agent 預設個性化的提煉規則:例如設置優先提取 AI 相關信息;對於多份研報實現推薦標的推薦頻次統計等。

4.個性化的工作助理
現在許多大模型可以保存自定義的個性化設置,而不用每次在新的對話中調整要求,例如 ChatGPT。例如作為投研助手 Agent 來使用的情況,可以要求大模型按特定的風格輸出回答,涉及任何引用網絡資料的回答都自動給出權威來源鏈接。

5.AI 編程製作數據分析代碼等
對於一些比較明確的數據分析、圖表可視化等工作內容,使用代碼來構建一個工作流程
可以大幅降低重複工作量。對缺乏專業編程能力的用户,大模型的編程能力恰好彌補了這一短板,通過簡單對話就能靠 AI 編程製作實用的工具。例如對於券商研報需要製作底稿的需求,可以在一邊撰寫文檔時一邊將底稿內容寫入 Word 批註,再利用代碼提取批註內容生成底稿文件。對於需要經常提交複雜報銷材料的工作,如果未來各訂票應用開放接口,也可以製作符合自己公司流程的報銷助手。

6.生活助手

近期美團已經在上線測試其生活助手 “小美”。功能包括點餐等。我們認為未來將有許多涉獵電商、本地生活的公司推出類似產品,但這類 AI 助手預計一般情況下只會和自己公司內部的應用打通,例如 “小美” 會在服務時調用美團。理想情況下用户應該可以自定義一個符合自己喜好的 Agent,並且可以調用不同的競品應用,比如在點外賣時對美團、淘寶、京東等平台都進行查詢對比。


風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。