3 月 10 日，谷歌 DeepMind 推出 Gemini Embedding 2，這是該公司首個原生多模態嵌入模型，將文本、圖像、視頻、音頻及文檔統一映射至單一嵌入空間，標誌着 AI 嵌入技術邁入全模態融合的新階段。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/e73d0f8e-a482-4720-9891-eda20c38cfbf.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="960" height="397" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/e73d0f8e-a482-4720-9891-eda20c38cfbf.png"/>
Gemini Embedding 2 支持超 100 種語言的語義理解，並在文本、圖像及視頻任務的基準測試中超越現有主流模型，同時引入了此前嵌入模型所欠缺的語音處理能力。
該模型現已通過 Gemini API 及 Vertex AI 進入公開預覽階段，開發者可即時接入。
對於企業用户而言，該模型的發佈直接降低了構建多模態檢索增強生成（RAG）、語義搜索及數據分類系統的技術門檻，有望簡化此前需跨模態分別處理的複雜數據管道。
<div>
<h2 id="8233733b">全模態統一：從文本擴展至五類媒體形式</h2>
</div>
Gemini Embedding 2 基於 Gemini 架構構建，將嵌入能力從純文本擴展至五類輸入形式：
<blockquote>
<ul>
<li>文本支持最多 8192 個輸入 token；</li>
<li>圖像每次請求最多處理 6 張，支持 PNG 及 JPEG 格式；</li>
<li>視頻支持最長 120 秒的 MP4 和 MOV 文件；</li>
<li>音頻可直接攝入並生成嵌入向量，無需經過中間文本轉錄步驟；</li>
<li>文檔則支持最多 6 頁的 PDF 文件直接嵌入。</li>
</ul>
</blockquote>
區別於逐一處理單一模態的傳統方式，該模型支持交錯輸入，即在單次請求中同時傳入圖像與文本等多種模態組合，使模型能夠捕捉不同媒體類型之間複雜而細微的語義關聯。
<img class="wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1141e797-bc27-44e6-9f75-be082db54c23?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1920" height="1080" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1141e797-bc27-44e6-9f75-be082db54c23"/>
Gemini Embedding 2 延續了谷歌此前嵌入模型中採用的 Matryoshka 表示學習（MRL）技術。該技術通過&#34;嵌套&#34;方式動態壓縮向量維度，使輸出維度可從默認的 3072 靈活縮減，幫助開發者在模型性能與存儲成本之間取得平衡。
<div>
<h2 id="61601ac7">基準測試領先，語音能力為新亮點</h2>
</div>
谷歌表示，Gemini Embedding 2 在文本、圖像及視頻任務的基準測試中均優於當前主流競品模型，並將其定位為多模態嵌入領域的新性能標杆。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/26bd40dd-3553-4e58-adbe-063f82807c6c.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1000" height="578" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/26bd40dd-3553-4e58-adbe-063f82807c6c.png"/>
谷歌建議開發者根據應用場景選擇 3072、1536 或 768 三檔維度，以獲得最優質的嵌入效果。這一設計對於需要大規模部署嵌入向量的企業尤為重要，可在不顯著犧牲精度的前提下有效控制基礎設施成本。
在能力覆蓋方面，該模型引入了此前同類模型普遍缺失的原生語音嵌入能力，無需藉助語音轉文字的中間環節即可直接處理音頻數據。
谷歌指出，嵌入技術已廣泛應用於其多款產品之中，覆蓋 RAG 場景下的上下文工程、大規模數據管理以及傳統搜索與分析場景。
目前已有部分早期訪問合作伙伴開始基於 Gemini Embedding 2 構建多模態應用，谷歌稱這些用例正在兑現該模型在高價值場景中的實際潛力。

谷歌-A

谷歌-C

2 倍做多谷歌 ETF - Direxion

GOOW

谷歌 DeepMind 於 3 月 10 日推出首個原生多模態嵌入模型 Gemini Embedding 2，可將文本、圖像、視頻、音頻及文檔統一映射至單一嵌入空間。模型支持超 100 種語言，首次引入原生語音嵌入能力，無需語音轉文字中間環節。採用 MRL 技術支持靈活壓縮向量維度，兼顧性能與存儲成本。

- 谷歌推出 Gemini Embedding 2，是首個多模態嵌入模型。  
- 支持文本、圖像、視頻、音頻與文檔統一映射，提升語義理解能力。  
- 該模型簡化多模態數據處理，降低企業技術門檻。

谷歌發佈首個原生多模態嵌入模型 Gemini Embedding 2