<p>英伟达美东时间 2 日周二披露了与法国人工智能（AI）初创公司 Mistral AI 合作取得的重大突破。通过采用英伟达的最新芯片技术，Mistral AI 开源模型家族的新成员在性能、效率和部署灵活性上实现跨越式提升。</p>
<p>这一合作成果的核心是，Mistral Large 3 这一大型模型在英伟达 GB200 NVL72 系统上实现了相比前代 H200 芯片 10 倍的性能提升。这种性能飞跃转化为更好的用户体验、更低的单次响应成本以及更高的能源效率。该模型在每兆瓦（MW）能耗下可实现每秒超过 500 万个 token 的处理速度。</p>
<p>除大型模型外，名为 Ministral 3 的小型模型系列也针对英伟达边缘平台进行了优化，可在 RTX PC、笔记本电脑和 Jetson 设备上运行。这使得企业能够在云端到边缘的任何场景部署人工智能应用，无需依赖持续的网络连接。</p>
<p>Mistral AI 周二发布的新模型家族包括一个大型前沿模型和九个小模型，均可通过 Hugging Face 等开源平台和主流云服务商获取。业内人士认为，这一系列发布标志着开源 AI 进入&#34;分布式智能&#34;新阶段，弥合了研究突破与实际应用之间的差距。</p>
<div>
<h2 id="gb-200">GB200 系统助力大模型性能突破</h2>
</div>
<p>Mistral Large 3 是一个混合专家模型（MoE），拥有 675 亿总参数和 410 亿活跃参数，以及 25.6 万 token 的上下文窗口。该架构的特点是仅激活对每个 token 最具影响力的模型部分，而非启动所有神经元，从而在保持精度的同时实现高效扩展。</p>
<p>英伟达称，通过利用一系列专为大型先进 MoE 量身定制的优化技术，Mistral Large 3 在英伟达 GB200 NVL72 上实现了同类最佳性能。</p>
<p><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9e5e193a-b267-4272-ba75-2f986f2bf03d.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="2048" height="1091" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9e5e193a-b267-4272-ba75-2f986f2bf03d.jpeg"/></p>
<p>英伟达通过三项关键技术优化实现了性能突破。首先是 Wide Expert Parallelism 技术，通过优化的 MoE 内核、专家分配和负载均衡充分利用 NVLink 的连贯内存域。其次是 NVFP4 低精度推理技术，在保持精度的同时降低计算和内存成本。第三是 Dynamo 分布式推理框架，通过分离预填充和解码阶段提升长文本处理性能。</p>
<p>该模型已兼容 TensorRT-LLM、SGLang 和 vLLM 等主流推理框架。开发者可以通过这些开源工具在不同规模的英伟达 GPU 上灵活部署模型，选择适合自身需求的精度格式和硬件配置。</p>
<div>
<h2 id="3e5a3bba">小模型瞄准边缘设备部署</h2>
</div>
<p>Ministral 3 系列包含九个密集型高性能模型，涵盖 30 亿、80 亿和 140 亿三种参数规模，每种规模又提供基础版、指令版和推理版三个变体。所有变体均支持视觉功能，处理 12.8 万至 25.6 万 token 的上下文窗口，并支持多语言。</p>
<p>这些小型模型在英伟达 RTX 5090 GPU 上可实现每秒最高 385 个 token 的推理速度。在 Jetson Thor 设备上，vLLM 容器在单并发下可达每秒 52 个 token，在 8 个并发下可扩展至每秒 273 个 token。</p>
<p>英伟达与 Ollama 和 llama.cpp 合作优化了这些模型的边缘性能。开发者可以在 GeForce RTX AI PC、DGX Spark 和 Jetson 设备等英伟达边缘平台上运行这些模型，实现更快的迭代速度、更低的延迟和更强的数据隐私保护。</p>
<p>由于单个 GPU 即可运行，Ministral 3 可部署在机器人、自动驾驶无人机、汽车、手机和笔记本电脑等设备上。这种部署灵活性使得人工智能应用能够在网络连接受限或无网络环境下运行。</p>
<div>
<h2 id="mistral">Mistral 新模型家族商业化提速</h2>
</div>
<p>Mistral AI 周二发布的新模型系列是该公司追赶 OpenAI、谷歌和 DeepSeek 等领先 AI 实验室的最新举措。这家成立于 2023 年的公司在去年 9 月完成 17 亿欧元融资，其中荷兰芯片设备制造商 ASML 贡献 13 亿欧元，英伟达也参与其中，估值达到 117 亿欧元。</p>
<p>Mistral AI 的联合创始人兼首席科学家 Guillaume Lample 表示，尽管大型闭源模型在初始基准测试中表现更好，但经过针对性微调后，小型模型在企业特定用例上往往能匹敌甚至超越大型模型。他强调，绝大多数企业用例可以通过微调后的小型模型解决，且成本更低、速度更快。</p>
<p>Mistral AI 已开始加速商业化进程。本周一，该公司宣布与汇丰银行达成协议，为这家跨国银行提供从金融分析到翻译等任务的模型访问权限。此外，该公司还与多家企业签订了价值数亿美元的合同，并在物理人工智能领域展开布局，与新加坡内政科技局、德国国防科技初创公司 Helsing 以及汽车制造商 Stellantis 开展机器人、无人机和车载助手项目合作。</p>
<p>Mistral Large 3 和 Ministral-14B-Instruct 现已通过英伟达 API 目录和预览 API 向开发者开放。企业开发者很快还可使用英伟达 NIM 微服务在任何 GPU 加速基础设施上轻松部署这些模型。所有 Mistral 3 家族模型均可从 Hugging Face 下载。</p>

英伟达

2 倍做多英伟达 ETF - GraniteShares

南方两倍做多英伟达

南方两倍做空英伟达

英伟达期权收益策略 ETF - YieldMax

1 倍做空英伟达 ETF - Direxion

2 倍做多 NVDA ETF - T-Rex

2 倍做空 NVDA ETF - T-Rex

半导体 3 倍做多 - Direxion

<p>通过为大型先进混合专家模型（MoE）定制的优化技术，Mistral Large 3 在英伟达 GB200 NVL72 系统上实现了同类最佳性能，相比前代 H200 芯片的性能提升 10 倍，每 MW 能耗可实现每秒超过 500 万 token 的处理速度。Ministral 3 系列小模型在英伟达 RTX 5090 GPU 上可实现每秒最高 385 个 token 的推理速度。</p>

- 英伟达与 Mistral AI 合作推出新模型，提升性能和效率。  
- Mistral Large 3 在 GB200 系统上实现 10 倍性能提升，支持高效部署。  
- 新模型家族加速商业化，已与多家企业签署合同，推动 AI 应用发展。

英伟达官宣新合作成就：Mistral 开源模型提速，任意规模均提高效率和精度