3 月 10 日，谷歌 DeepMind 推出 Gemini Embedding 2，这是该公司首个原生多模态嵌入模型，将文本、图像、视频、音频及文档统一映射至单一嵌入空间，标志着 AI 嵌入技术迈入全模态融合的新阶段。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/e73d0f8e-a482-4720-9891-eda20c38cfbf.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="960" height="397" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/e73d0f8e-a482-4720-9891-eda20c38cfbf.png"/>
Gemini Embedding 2 支持超 100 种语言的语义理解，并在文本、图像及视频任务的基准测试中超越现有主流模型，同时引入了此前嵌入模型所欠缺的语音处理能力。
该模型现已通过 Gemini API 及 Vertex AI 进入公开预览阶段，开发者可即时接入。
对于企业用户而言，该模型的发布直接降低了构建多模态检索增强生成（RAG）、语义搜索及数据分类系统的技术门槛，有望简化此前需跨模态分别处理的复杂数据管道。
<div>
<h2 id="8233733b">全模态统一：从文本扩展至五类媒体形式</h2>
</div>
Gemini Embedding 2 基于 Gemini 架构构建，将嵌入能力从纯文本扩展至五类输入形式：
<blockquote>
<ul>
<li>文本支持最多 8192 个输入 token；</li>
<li>图像每次请求最多处理 6 张，支持 PNG 及 JPEG 格式；</li>
<li>视频支持最长 120 秒的 MP4 和 MOV 文件；</li>
<li>音频可直接摄入并生成嵌入向量，无需经过中间文本转录步骤；</li>
<li>文档则支持最多 6 页的 PDF 文件直接嵌入。</li>
</ul>
</blockquote>
区别于逐一处理单一模态的传统方式，该模型支持交错输入，即在单次请求中同时传入图像与文本等多种模态组合，使模型能够捕捉不同媒体类型之间复杂而细微的语义关联。
<img class="wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1141e797-bc27-44e6-9f75-be082db54c23?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1920" height="1080" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1141e797-bc27-44e6-9f75-be082db54c23"/>
Gemini Embedding 2 延续了谷歌此前嵌入模型中采用的 Matryoshka 表示学习（MRL）技术。该技术通过&#34;嵌套&#34;方式动态压缩向量维度，使输出维度可从默认的 3072 灵活缩减，帮助开发者在模型性能与存储成本之间取得平衡。
<div>
<h2 id="61601ac7">基准测试领先，语音能力为新亮点</h2>
</div>
谷歌表示，Gemini Embedding 2 在文本、图像及视频任务的基准测试中均优于当前主流竞品模型，并将其定位为多模态嵌入领域的新性能标杆。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/26bd40dd-3553-4e58-adbe-063f82807c6c.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1000" height="578" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/26bd40dd-3553-4e58-adbe-063f82807c6c.png"/>
谷歌建议开发者根据应用场景选择 3072、1536 或 768 三档维度，以获得最优质的嵌入效果。这一设计对于需要大规模部署嵌入向量的企业尤为重要，可在不显著牺牲精度的前提下有效控制基础设施成本。
在能力覆盖方面，该模型引入了此前同类模型普遍缺失的原生语音嵌入能力，无需借助语音转文字的中间环节即可直接处理音频数据。
谷歌指出，嵌入技术已广泛应用于其多款产品之中，覆盖 RAG 场景下的上下文工程、大规模数据管理以及传统搜索与分析场景。
目前已有部分早期访问合作伙伴开始基于 Gemini Embedding 2 构建多模态应用，谷歌称这些用例正在兑现该模型在高价值场景中的实际潜力。

谷歌-A

谷歌-C

2 倍做多谷歌 ETF - Direxion

GOOW

谷歌 DeepMind 于 3 月 10 日推出首个原生多模态嵌入模型 Gemini Embedding 2，可将文本、图像、视频、音频及文档统一映射至单一嵌入空间。模型支持超 100 种语言，首次引入原生语音嵌入能力，无需语音转文字中间环节。采用 MRL 技术支持灵活压缩向量维度，兼顾性能与存储成本。

- 谷歌推出 Gemini Embedding 2，是首个多模态嵌入模型。  
- 支持文本、图像、视频、音频与文档统一映射，提升语义理解能力。  
- 该模型简化多模态数据处理，降低企业技术门槛。

谷歌发布首个原生多模态嵌入模型 Gemini Embedding 2