<p>英偉達美東時間 2 日週二披露了與法國人工智能（AI）初創公司 Mistral AI 合作取得的重大突破。通過採用英偉達的最新芯片技術，Mistral AI 開源模型家族的新成員在性能、效率和部署靈活性上實現跨越式提升。</p>
<p>這一合作成果的核心是，Mistral Large 3 這一大型模型在英偉達 GB200 NVL72 系統上實現了相比前代 H200 芯片 10 倍的性能提升。這種性能飛躍轉化為更好的用户體驗、更低的單次響應成本以及更高的能源效率。該模型在每兆瓦（MW）能耗下可實現每秒超過 500 萬個 token 的處理速度。</p>
<p>除大型模型外，名為 Ministral 3 的小型模型系列也針對英偉達邊緣平台進行了優化，可在 RTX PC、筆記本電腦和 Jetson 設備上運行。這使得企業能夠在雲端到邊緣的任何場景部署人工智能應用，無需依賴持續的網絡連接。</p>
<p>Mistral AI 週二發佈的新模型家族包括一個大型前沿模型和九個小模型，均可通過 Hugging Face 等開源平台和主流雲服務商獲取。業內人士認為，這一系列發佈標誌着開源 AI 進入&#34;分佈式智能&#34;新階段，彌合了研究突破與實際應用之間的差距。</p>
<div>
<h2 id="gb-200">GB200 系統助力大模型性能突破</h2>
</div>
<p>Mistral Large 3 是一個混合專家模型（MoE），擁有 675 億總參數和 410 億活躍參數，以及 25.6 萬 token 的上下文窗口。該架構的特點是僅激活對每個 token 最具影響力的模型部分，而非啓動所有神經元，從而在保持精度的同時實現高效擴展。</p>
<p>英偉達稱，通過利用一系列專為大型先進 MoE 量身定製的優化技術，Mistral Large 3 在英偉達 GB200 NVL72 上實現了同類最佳性能。</p>
<p><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9e5e193a-b267-4272-ba75-2f986f2bf03d.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="2048" height="1091" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9e5e193a-b267-4272-ba75-2f986f2bf03d.jpeg"/></p>
<p>英偉達通過三項關鍵技術優化實現了性能突破。首先是 Wide Expert Parallelism 技術，通過優化的 MoE 內核、專家分配和負載均衡充分利用 NVLink 的連貫內存域。其次是 NVFP4 低精度推理技術，在保持精度的同時降低計算和內存成本。第三是 Dynamo 分佈式推理框架，通過分離預填充和解碼階段提升長文本處理性能。</p>
<p>該模型已兼容 TensorRT-LLM、SGLang 和 vLLM 等主流推理框架。開發者可以通過這些開源工具在不同規模的英偉達 GPU 上靈活部署模型，選擇適合自身需求的精度格式和硬件配置。</p>
<div>
<h2 id="3e5a3bba">小模型瞄準邊緣設備部署</h2>
</div>
<p>Ministral 3 系列包含九個密集型高性能模型，涵蓋 30 億、80 億和 140 億三種參數規模，每種規模又提供基礎版、指令版和推理版三個變體。所有變體均支持視覺功能，處理 12.8 萬至 25.6 萬 token 的上下文窗口，並支持多語言。</p>
<p>這些小型模型在英偉達 RTX 5090 GPU 上可實現每秒最高 385 個 token 的推理速度。在 Jetson Thor 設備上，vLLM 容器在單併發下可達每秒 52 個 token，在 8 個併發下可擴展至每秒 273 個 token。</p>
<p>英偉達與 Ollama 和 llama.cpp 合作優化了這些模型的邊緣性能。開發者可以在 GeForce RTX AI PC、DGX Spark 和 Jetson 設備等英偉達邊緣平台上運行這些模型，實現更快的迭代速度、更低的延遲和更強的數據隱私保護。</p>
<p>由於單個 GPU 即可運行，Ministral 3 可部署在機器人、自動駕駛無人機、汽車、手機和筆記本電腦等設備上。這種部署靈活性使得人工智能應用能夠在網絡連接受限或無網絡環境下運行。</p>
<div>
<h2 id="mistral">Mistral 新模型家族商業化提速</h2>
</div>
<p>Mistral AI 週二發佈的新模型系列是該公司追趕 OpenAI、谷歌和 DeepSeek 等領先 AI 實驗室的最新舉措。這家成立於 2023 年的公司在去年 9 月完成 17 億歐元融資，其中荷蘭芯片設備製造商 ASML 貢獻 13 億歐元，英偉達也參與其中，估值達到 117 億歐元。</p>
<p>Mistral AI 的聯合創始人兼首席科學家 Guillaume Lample 表示，儘管大型閉源模型在初始基準測試中表現更好，但經過針對性微調後，小型模型在企業特定用例上往往能匹敵甚至超越大型模型。他強調，絕大多數企業用例可以通過微調後的小型模型解決，且成本更低、速度更快。</p>
<p>Mistral AI 已開始加速商業化進程。本週一，該公司宣佈與滙豐銀行達成協議，為這家跨國銀行提供從金融分析到翻譯等任務的模型訪問權限。此外，該公司還與多家企業簽訂了價值數億美元的合同，並在物理人工智能領域展開佈局，與新加坡內政科技局、德國國防科技初創公司 Helsing 以及汽車製造商 Stellantis 開展機器人、無人機和車載助手項目合作。</p>
<p>Mistral Large 3 和 Ministral-14B-Instruct 現已通過英偉達 API 目錄和預覽 API 向開發者開放。企業開發者很快還可使用英偉達 NIM 微服務在任何 GPU 加速基礎設施上輕鬆部署這些模型。所有 Mistral 3 家族模型均可從 Hugging Face 下載。</p>

英偉達

2 倍做多英偉達 ETF - GraniteShares

南方兩倍做多英偉達

南方兩倍做空英偉達

英偉達期權收益策略 ETF - YieldMax

1 倍做空英偉達 ETF - Direxion

2 倍做多 NVDA ETF - T-Rex

2 倍做空 NVDA ETF - T-Rex

半導體 3 倍做多 - Direxion

<p>通過為大型先進混合專家模型（MoE）定製的優化技術，Mistral Large 3 在英偉達 GB200 NVL72 系統上實現了同類最佳性能，相比前代 H200 芯片的性能提升 10 倍，每 MW 能耗可實現每秒超過 500 萬 token 的處理速度。Ministral 3 系列小模型在英偉達 RTX 5090 GPU 上可實現每秒最高 385 個 token 的推理速度。</p>

- 英偉達與 Mistral AI 合作推出新模型，提升性能和效率。  
- Mistral Large 3 在 GB200 系統上實現 10 倍性能提升，支持高效部署。  
- 新模型家族加速商業化，已與多家企業簽署合同，推動 AI 應用發展。

英偉達官宣新合作成就：Mistral 開源模型提速，任意規模均提高效率和精度