
谷歌推出新一代 AI 模型 Gemini 2.0 Flas 支持生成圖像

為應對 OpenAI 此前推出的眾多新產品,谷歌週三推出下一代重要人工智能模型 Gemini 2.0 Flash,成為 2.0 家族第一個模型,主推原生多模態輸入輸出 +Agent,速度比 1.5 Pro 快兩倍,關鍵性能指標甚至超過了 1.5 Pro,可以原生生成圖像和音頻,同時支持文本生成,還可以使用第三方應用程序和服務,使其能夠訪問谷歌搜索、執行代碼等功能。谷歌週三還發布了其首個能夠在網頁上執行操作的 AI 代理 Project Mariner,由 Gemini 驅動,能夠接管用户的 Chrome 瀏覽器,移動屏幕上的光標,點擊按鈕,填寫表單,從而像人類一樣使用和瀏覽網站。
作者:趙雨荷
為應對 OpenAI 此前推出的眾多新產品,谷歌週三推出下一代重要人工智能模型 Gemini 2.0 Flash,可以原生生成圖像和音頻,同時支持文本生成。2.0 Flash 還可以使用第三方應用程序和服務,使其能夠訪問谷歌搜索、執行代碼等功能。
從週三起,2.0 Flash 的實驗版本將通過 Gemini API 和谷歌的 AI 開發平台(AI Studio 和 Vertex AI)提供。然而,音頻和圖像生成功能僅對 “早期接入合作伙伴” 開放,並計劃在明年 1 月全面推出。
未來幾個月內,谷歌表示將推出 2.0 Flash 的不同版本,用於 Android Studio、Chrome DevTools、Firebase、Gemini Code Assist 等產品。
Flash 的升級
第一代 Flash(1.5 Flash)只能生成文本,且並未設計用於特別高要求的工作負載。據谷歌稱,新版本 2.0 Flash 模型更具多樣性,部分原因是它能夠調用工具(如搜索)並與外部 API 交互。
谷歌 Gemini 模型產品負責人 Tulsee Doshi 表示,
“我們知道,Flash 因其在速度和性能上的良好平衡而備受開發者喜愛。在 2.0 Flash 中,它依然保持了速度的優勢,但現在更加強大。”
谷歌聲稱,根據公司內部測試,2.0 Flash 在某些基準測試中的運行速度是 Gemini 1.5 Pro 模型的兩倍,並在編碼和圖像分析等領域 “顯著” 改進。事實上,該公司表示,2.0 Flash 憑藉其更好的數學性能和 “事實性” 取代了 1.5 Pro,成為 Gemini 的旗艦模型。
2.0 Flash 可以生成並修改圖像,同時支持文本生成。該模型還可以讀取照片、視頻以及音頻錄製內容,從而回答與這些內容相關的問題。
音頻生成是 2.0 Flash 的另一個關鍵功能,Doshi 將其描述為 “可操控” 和 “可定製”。例如,該模型可以用八種針對不同口音和語言優化的聲音來朗讀文本。
不過,谷歌並未提供 2.0 Flash 生成的圖像或音頻樣本,因此無法判斷其輸出質量與其他模型的比較。
谷歌表示,它正在使用其 SynthID 技術為 2.0 Flash 生成的所有音頻和圖像添加水印。在支持 SynthID 的軟件和平台(即部分谷歌產品)上,該模型的輸出將被標記為合成內容。
此舉旨在緩解人們對濫用的擔憂。事實上,“深度偽造”(deepfake)正成為日益嚴重的威脅。據身份驗證服務 Sumsub 的數據,從 2023 年到 2024 年,全球檢測到的深度偽造數量增長了四倍。
多模態 API
2.0 Flash 的生產力版本將於明年 1 月推出。但與此同時,谷歌推出了一個 API,名為 Multimodal Live API,以幫助開發者構建具有實時音頻和視頻流功能的應用程序。
通過 Multimodal Live API,谷歌表示開發者可以創建具有來自攝像頭或屏幕音頻和視頻輸入的實時多模態應用程序。該 API 支持工具集成以完成任務,並能夠處理 “自然對話模式”,例如打斷——與 OpenAI 的實時 API 功能類似。
Multimodal Live API 已於週三上午全面開放使用。
AI 代理操作網頁
谷歌週三還發布了其首個能夠在網頁上執行操作的 AI 代理,這是由其 DeepMind 部門推出的研究模型,名為 Project Mariner。該代理由 Gemini 驅動,能夠接管用户的 Chrome 瀏覽器,移動屏幕上的光標,點擊按鈕,填寫表單,從而像人類一樣使用和瀏覽網站。
谷歌表示,從週三開始,這款 AI 代理將首先面向一小部分預先選定的測試者推出。
媒體報道,谷歌正在繼續嘗試新的方式,讓 Gemini 能夠讀取、總結甚至使用網站。一位谷歌高管告訴媒體,這標誌着一種 “全新的用户體驗範式轉變”:用户不再直接與網站交互,而是通過生成式 AI 系統完成這些交互。
分析認為,這種轉變可能會影響數百萬家企業——從 TechCrunch 等出版商到沃爾瑪等零售商——這些企業一直以來都依賴谷歌將真實用户引導到他們的網站。
在與科技媒體 TechCrunch 的演示中,谷歌實驗室總監 Jaclyn Konzelmann 展示了 Project Mariner 的工作原理。
在 Chrome 瀏覽器中安裝一個擴展程序後,瀏覽器右側會彈出一個聊天窗口。用户可以指示代理完成諸如 “根據這份清單在超市創建購物車” 之類的任務。
接着,AI 代理會導航到一家超市的網站,然後搜索並將商品添加到虛擬購物車中。一個顯而易見的問題是代理運行速度較慢——每次光標移動之間約有 5 秒的延遲。有時,代理會中斷任務並返回到聊天窗口,要求澄清某些物品(比如需要多少胡蘿蔔等)。
谷歌的代理無法完成結賬,因為它不會填寫信用卡號或賬單信息。此外,Project Mariner 也不會為用户接受 cookies,或簽署服務條款協議。谷歌表示,這是出於對用户更好控制的考慮,故意不允許代理執行這些操作。
在後台,谷歌的代理會截取用户瀏覽器窗口的截圖(用户需在服務條款中同意這一點),並將其發送到雲端的 Gemini 進行處理。然後,Gemini 會將導航網頁的指令發送回用户的電腦。
Project Mariner 還可以用於搜索航班和酒店、購物家居用品、查找食譜以及其他目前需要用户點擊網頁才能完成的任務。
不過,Project Mariner 僅能在 Chrome 瀏覽器的最前端活動標籤頁上工作,這意味着在代理後台運行時,用户無法用電腦做其他事情,而是需要觀看 Gemini 慢慢地點擊操作。谷歌 DeepMind 首席技術官 Koray Kavukcuoglu 表示,這是一個非常有意的決定,目的是讓用户知道谷歌的 AI 代理正在做什麼。
Konzelmann 表示,
“[Project Mariner] 標誌着我們現在看到的一種根本性的新用户體驗範式轉變。我們需要探索一種正確的方法,讓這一切改變用户與網頁互動的方式,同時也改變出版商為用户以及代理創建體驗的方式。”
AI 代理做研究、寫代碼、熟悉遊戲
除了 Project Mariner,谷歌週三還推出了幾款專門用於特定任務的新 AI 代理。
其中一個 AI 代理 Deep Research 旨在通過創建多步驟研究計劃幫助用户研究複雜研究。它似乎是 OpenAI 的 o1 的競爭對手,後者也能夠進行多步驟推理。然而,谷歌發言人指出,該代理並不用於解決數學和邏輯推理問題、編寫代碼或進行數據分析。Deep Research 現已在 Gemini Advanced 中推出,並將在 2025 年登陸 Gemini 應用。
當收到一個困難或規模較大的問題時,Deep Research 會創建一個多步驟的行動計劃來回答問題。在用户批准計劃後,Deep Research 需要幾分鐘的時間來回答問題、搜索網頁,然後生成一份詳細的研究報告。
另一個新 AI 代理 Jules 旨在幫助開發者完成代碼任務。它直接集成到 GitHub 工作流中,使 Jules 能夠查看現有工作並直接在 GitHub 中進行更改。Jules 現已向一小部分測試者推出,並將在 2025 年晚些時候發佈。
最後,谷歌 DeepMind 表示正在開發一款用於幫助用户熟悉遊戲的 AI 代理,這是基於其在創建遊戲 AI 方面的長期經驗。谷歌正在與 Supercell 等遊戲開發商合作測試 Gemini 解釋《部落衝突》等遊戲世界的能力。
AI 生成摘要
谷歌週三還發布了基於 Gemini 2.0 模型的 AI 生成摘要功能 “AI Overviews”,為某些 Google 搜索查詢提供的摘要內容,將很快能夠處理 “更復雜的話題”,以及 “多模態” 和 “多步驟” 的搜索內容。谷歌表示,這包括高級數學問題和編程問題。
新的 AI Overviews 功能將在本週開始進行有限測試,並將在明年初廣泛推廣。
不過,自今年春天推出以來,AI Overviews 引發了許多爭議,其提供的某些可疑陳述和建議(例如推薦在披薩上加膠水)曾在網上引發熱議。根據 SEO 平台 SE Ranking 的一份最近報告,AI Overviews 引用了 “並不完全可靠或基於證據的” 網站,包括過時的研究和付費產品列表。
分析認為,主要問題在於,AI Overviews 有時難以辨別信息來源是事實、虛構、諷刺還是嚴肅內容。過去幾個月裏,谷歌改變了 AI Overviews 的工作方式,限制了與時事和健康話題相關的答案。但谷歌並不聲稱這一功能已經完美無缺。
儘管如此,谷歌表示,AI Overviews 提升了搜索參與度,尤其是在 18 到 24 歲這一關鍵用户羣體中——這是谷歌的重點目標人羣。
最新 AI 加速器芯片 Trillium 專供 Gemini 2.0
谷歌週三發佈了其第六代人工智能加速器芯片 Trillium,聲稱這一芯片的性能改進可能從根本上改變 AI 開發的經濟模式。
這款定製處理器用於訓練谷歌最新發布的 Gemini 2.0 AI 模型,其訓練性能是上一代的四倍,同時大幅降低了能耗。
谷歌首席執行官桑達爾·皮查伊(Sundar Pichai)在一篇公告文章中解釋道,谷歌已經將超過 10 萬顆 Trillium 芯片連接在一個單一的網絡結構中,形成了全球最強大的 AI 超級計算機之一。
Trillium 在多個維度上實現了顯著的進步。與其前代相比,這款芯片每顆芯片的峯值計算性能提升了 4.7 倍,同時高帶寬內存容量和芯片間互聯帶寬均翻了一倍。更為重要的是,它的能效提升了 67%,這是數據中心在應對 AI 訓練巨大能耗需求時的一個關鍵指標。
Trillium 的商業影響不僅限於性能指標。谷歌聲稱,與上一代芯片相比,該芯片在每美元的訓練性能方面提升了 2.5 倍,這可能會重塑 AI 開發的經濟模式。
分析認為,Trillium 的發佈加劇了 AI 硬件領域的競爭,而英偉達憑藉其基於 GPU 的解決方案長期佔據主導地位。雖然英偉達的芯片仍然是許多 AI 應用的行業標準,但谷歌的定製芯片方法可能在特定工作負載,特別是訓練非常大的模型方面具有優勢。
還有分析稱,谷歌在定製芯片開發上的鉅額投資反映了其對 AI 基礎設施重要性的戰略押注。谷歌決定將 Trillium 提供給雲客户,這表明其希望在雲 AI 市場上更具競爭力,與微軟 Azure 和亞馬遜 AWS 展開激烈競爭。對於整個科技行業而言,Trillium 的發佈表明 AI 硬件霸主之爭正進入新階段。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

