--- title: "谷歌推出最快最高性价比 Gemini 3 模型,响应时间提高 2.5 倍、输出速度提升 45%" type: "News" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/277691703.md" description: "Gemini 3.1 Flash-Lite 专为开发者大规模高频工作负载设计,本周二起预览版向开发者开放,内置 “思考层级”;基准测试显示,该模型首个答案响应时间较 Gemini 2.5 Flash 提高 2.5 倍 2.5 倍,输出速度提升 45%;GPQA Diamond 和 MMMU Pro 测试得分均超越 GPT-5 Mini 等竞品;定价 0.25 美元/百万输入 token、1.5 美元/百万输出 token,上下文窗口最长 100 万 token。" datetime: "2026-03-03T16:41:11.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/277691703.md) - [en](https://longbridge.com/en/news/277691703.md) - [zh-HK](https://longbridge.com/zh-HK/news/277691703.md) --- > 支持的语言: [English](https://longbridge.com/en/news/277691703.md) | [繁體中文](https://longbridge.com/zh-HK/news/277691703.md) # 谷歌推出最快最高性价比 Gemini 3 模型,响应时间提高 2.5 倍、输出速度提升 45% 美东时间 3 月 3 日周二,谷歌推出 Gemini 3 系列中速度最快、性价比最高的模型——Gemini 3.1 Flash-Lite。它专为开发者大规模高频工作负载设计,以更低价格实现不妥协的智能表现。 Gemini 3.1 Flash-Lite 于 3 日当天起以预览版形式向开发者开放,可通过谷歌 AI Studio 的 Gemini API 接入,企业用户则可经由谷歌云 Vertex AI 平台使用。使用该模型无需特定硬件或软件配置,用户只需通过 API 调用即可接入。 谷歌透露,根据 Artificial Analysis 基准测试,3.1 Flash-Lite 在首个答案响应时间上较 Gemini 2.5 Flash 提高 2.5 倍,输出速度提升 45%,同时维持相近或更优的质量水准。 谷歌表示,该模型在 Arena.ai 排行榜上获得 1432 的 Elo 评分,并在多项推理与多模态理解基准测试中超越同级别其他模型,甚至优于上一代体量更大的 Gemini 模型。目前已有 Latitude、Cartwheel、Whering 等企业在早期测试中使用该模型,并反馈出显著的效率与成本优势。 ## 定位与价格:高频场景下的性价比首选 谷歌 DeepMind 在模型说明文件中将 3.1 Flash-Lite 定位为 “具备成本效益、速度快,针对高频、对延迟敏感的任务(如翻译和内容分类)进行优化” 的模型,是 Gemini 3 系列原生多模态推理模型家族的新成员。 在价格方面,3.1 Flash-Lite 定价为每百万输入 token 0.25 美元、每百万输出 token 1.50 美元。谷歌在官方博客中指出,该定价仅为大型模型的一小部分,适合需要大规模部署、同时对成本高度敏感的开发者和企业用户。 该模型支持文本、图像、音频与视频等多模态输入,上下文窗口最长达 100 万 token,输出上限为 6.4 万 token,可满足从文件摘要到复杂多模态任务的广泛需求。 ## 性能基准:超越同级并挑战上一代旗舰 在核心性能指标上,谷歌援引 Artificial Analysis 基准测试数据称,3.1 Flash-Lite 的首个答案响应时间(Time to First Answer Token)比 Gemini 2.5 Flash 快 2.5 倍,输出速度提升 45%。 在智能能力评估方面,该模型在 Arena.ai 排行榜上获得 1432 的 Elo 评分,在 GPQA Diamond 测试中得分 86.9%,在 MMMU Pro 测试中得分 76.8%,谷歌表示这两项成绩均超越同级别竞争模型。 值得注意的是,谷歌特别强调 3.1 Flash-Lite 在部分基准测试中甚至超越了上一代体量更大的 Gemini 2.5 Flash,这意味着在特定工作负载下,用户无需支付旗舰模型的价格即可获得更优性能。 ## 核心特性:可调节的 “思考层级” 除速度与成本外,3.1 Flash-Lite 的一项差异化功能是在 AI Studio 和 Vertex AI 中内置 “思考层级”(thinking levels)控制,允许开发者根据任务复杂程度灵活调整模型的推理深度。 谷歌在官方博客中写道,这一功能 “对于管理高频工作负载至关重要”。对于翻译、内容审核等以成本为优先的批量任务,开发者可选用较低思考层级以压缩成本;对于生成用户界面、创建模拟场景或遵循复杂指令等需要深度推理的任务,则可调高思考层级以提升输出质量。 在架构层面,谷歌 DeepMind 披露,3.1 Flash-Lite 基于 Gemini 3 Pro 构建,训练使用谷歌自研的张量处理单元(TPU)及 JAX 与 ML Pathways 软件框架完成。 ## 企业反馈:效率与指令遵循能力获高度认可 多家早期测试企业对 3.1 Flash-Lite 给出了正面评价,尤其集中于速度、指令遵循能力和规模化处理能力三个维度。 AI 叙事平台 Latitude 的 AI 负责人 Kolby Nottingham 表示:“谷歌的模型在同类产品中展现出无与伦比的指令遵循能力和速度,成功率比我们之前使用的模型高出 20%,推理速度快 60%,使 Latitude 能够为更广泛的受众提供复杂的叙事体验。” AI 动画工具 Cartwheel 首席科学家 Andrew Carr 则称该模型为 “智能与速度比无可匹敌”,并指出:"它在工具调用方面表现出色,能够在更大模型所需时间的一小部分内快速探索代码库。我们拥有大量多模态标注使用场景,在大规模应用中,Flash-Lite 成为我们处理更多数据、获取更多洞察的关键解锁工具。" 时尚应用 Whering 的 CEO Bianca Rangecroft 表示,通过将 3.1 Flash-Lite 整合进分类流程,Whering 在商品标签标注上实现了"100% 的一致性",即使面对复杂的时尚品类,也能提供"确定、可重复的结果"。 企业 AI 平台 HubX 联合创始人 Kaan Ortabas 则提供了具体数据:“作为根编排与内容引擎,Gemini 3.1 Flash-Lite 持续实现 10 秒以内的完成时间、接近实时的流式输出、约 97% 的结构化输出合规率以及 94% 的意图路由准确率,在速度、指令精准度和成本效益之间取得了卓越平衡。” ### 相关股票 - [C3.ai (AI.US)](https://longbridge.com/zh-CN/quote/AI.US.md) - [OpenAI (OpenAI.NA)](https://longbridge.com/zh-CN/quote/OpenAI.NA.md) - [谷歌-A (GOOGL.US)](https://longbridge.com/zh-CN/quote/GOOGL.US.md) - [云计算 ETF - GlobalX (CLOU.US)](https://longbridge.com/zh-CN/quote/CLOU.US.md) - [标普软件与服务 ETF - SPDR (XSW.US)](https://longbridge.com/zh-CN/quote/XSW.US.md) - [全球科技股指数 ETF - iShares (IXN.US)](https://longbridge.com/zh-CN/quote/IXN.US.md) - [Roundhill GOOGL WeeklyPay ETF (GOOW.US)](https://longbridge.com/zh-CN/quote/GOOW.US.md) ## 相关资讯与研究 - [Google 推出 Gemini 3.1 Flash-Lite,主推高性价比与高效推理](https://longbridge.com/zh-CN/news/277733396.md) - [谷歌 AI 图像生成工具爆红后,推出二代版本 Nano Banana 2](https://longbridge.com/zh-CN/news/277075038.md) - [OpenClaw 一周烧掉我 14 亿 Token 后,我总结了这 10 条血泪教训](https://longbridge.com/zh-CN/news/277600757.md) - [人不如 Token 值钱](https://longbridge.com/zh-CN/news/277731081.md) - [GPT-5.4 据传下周上线!200 万上下文窗口 + 持久化状态,告别频繁遗忘](https://longbridge.com/zh-CN/news/277450972.md)