<div id="readability-page-1"><p>OpenAI 可能即將發佈的開源大模型的詳細技術細節來了，以下是根據泄露信息整理</p> <p><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/91ae19b9-6233-40bf-9a16-628834be6101.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="1230" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/91ae19b9-6233-40bf-9a16-628834be6101.png"/></p> <h2>模型架構：1200 億參數的混合專家模型（MoE）</h2> <p>據爆料，OpenAI 可能會發布兩款模型：</p> <p>一款 1200 億（120B）參數的混合專家（MoE）模型：其在推理時僅激活約 50-60 億（5B/6B）參數。這意味着它能在保持巨大知識容量的同時，實現極高的推理效率，大幅降低運行成本</p> <p>一款 200 億（20B）參數的稠密模型：作為更小巧、更易於部署的版本</p> <p>目前來看，這兩款模型將專注於文本處理，暫時不涉及多模態能力</p> <h2>訓練技術：或採用 Float4 與 英偉達最新 Blackwell 芯片</h2> <p>為了極致的效率，模型可能採用了 Float4 進行訓練或量化。這是一種非常激進的量化方案，可以極大地壓縮模型體積並提升運算速度</p> <p>據推測，這可能是藉助英偉達最新發布的 Blackwell 架構 GPU 完成的，因為該系列芯片原生支持 Float4 運算。另一種可能性是，模型在訓練後通過 訓練後量化（PTQ）技術壓縮到了 Float4</p> <h2>激活函數：帶範圍限制的 SwiGLU</h2> <p>為了配合 Float4 量化，模型可能採用了 SwiGLU 激活函數，並對其輸出範圍進行了 裁剪，限制在 -7 到 7 之間</p> <p>這類似於經典的 ReLU6 函數，其目的是為了消除激活值中的極端異常值，確保數值分佈更穩定，從而降低量化過程中帶來的精度損失。這對於 Float4 這種低精度格式至關重要</p> <h2>上下文窗口：通過 YaRN 技術擴展至 128K</h2> <p>模型將擁有 128K 的超長上下文窗口，但它並非從頭開始訓練的。據推測，該模型的基礎上下文窗口為 4K，之後在訓練中途採用 YaRN 等技術將其無縫擴展至 128K</p> <h2>注意力機制：滑動窗口注意力（SWA）與注意力匯聚（Attention Sinks）</h2> <p>為了高效處理 128K 的長文本，模型採用了兩大關鍵技術：</p> <p>滑動窗口注意力（SWA）：窗口大小為 128。這意味着在計算注意力時，每個詞元（token）只需關注其鄰近的 128 個詞元，從而將計算複雜度從二次方降低到線性級別</p> <p>注意力匯聚（Attention Sinks）：為了解決 SWA 會遺忘早期重要信息的問題，模型引入了注意力匯聚技術。該技術強制模型始終關注最開始的幾個（例如 4 或 8 個）關鍵 token，確保模型在處理長序列時不會失憶。NVIDIA 的 TensorRT-LLM 也已支持此功能</p> <h2>底層架構：融合 Llama/Mixtral 特點並使用偏置項</h2> <p>模型的基礎架構很可能借鑑了 Llama 和 Mixtral 等成功的開源模型。關鍵特徵包括：</p> <p>合併的 QKV 矩陣：將注意力機制中的查詢（Q）、鍵（K）、值（V）矩陣合併，以優化計算效率</p> <p>廣泛使用偏置項（Biases）：與一些模型（如 Llama）去掉偏置項的做法不同，該模型似乎在所有模塊（包括 MLP、注意力層甚至 MoE 的路由層）都保留了偏置項，這可能有助於提升模型的擬合能力</p> <p><span></span>AI 寒武紀<span>，原文標題：《OpenAI 開源模型泄露：六大技術細節》</span></p><p>風險提示及免責條款</p>           <p>市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。</p></div>

OpenAI

英偉達

<p>OpenAI 即將發佈的開源大模型技術細節泄露，包括一款 1200 億參數的混合專家模型和一款 200 億參數的稠密模型。前者在推理時激活約 50-60 億參數，提升推理效率並降低成本。模型可能採用 Float4 訓練技術，使用英偉達 Blackwell 芯片，激活函數為裁剪後的 SwiGLU，支持 128K 的上下文窗口，採用滑動窗口注意力機制。</p>

- OpenAI 可能發佈 1200 億參數的混合專家模型和 200 億參數的稠密模型。  
- 模型採用 Float4 訓練，支持 128K 上下文窗口，使用滑動窗口注意力。  
- 文章提醒投資風險，內容不構成個人投資建議。