OpenAI 開源模型泄露:六大技術細節

華爾街見聞
2025.08.01 23:40
portai
我是 PortAI,我可以總結文章信息。

OpenAI 即將發佈的開源大模型技術細節泄露,包括一款 1200 億參數的混合專家模型和一款 200 億參數的稠密模型。前者在推理時激活約 50-60 億參數,提升推理效率並降低成本。模型可能採用 Float4 訓練技術,使用英偉達 Blackwell 芯片,激活函數為裁剪後的 SwiGLU,支持 128K 的上下文窗口,採用滑動窗口注意力機制。

OpenAI 可能即將發佈的開源大模型的詳細技術細節來了,以下是根據泄露信息整理

模型架構:1200 億參數的混合專家模型(MoE)

據爆料,OpenAI 可能會發布兩款模型:

一款 1200 億(120B)參數的混合專家(MoE)模型:其在推理時僅激活約 50-60 億(5B/6B)參數。這意味着它能在保持巨大知識容量的同時,實現極高的推理效率,大幅降低運行成本

一款 200 億(20B)參數的稠密模型:作為更小巧、更易於部署的版本

目前來看,這兩款模型將專注於文本處理,暫時不涉及多模態能力

訓練技術:或採用 Float4 與 英偉達最新 Blackwell 芯片

為了極致的效率,模型可能採用了 Float4 進行訓練或量化。這是一種非常激進的量化方案,可以極大地壓縮模型體積並提升運算速度

據推測,這可能是藉助英偉達最新發布的 Blackwell 架構 GPU 完成的,因為該系列芯片原生支持 Float4 運算。另一種可能性是,模型在訓練後通過 訓練後量化(PTQ)技術壓縮到了 Float4

激活函數:帶範圍限制的 SwiGLU

為了配合 Float4 量化,模型可能採用了 SwiGLU 激活函數,並對其輸出範圍進行了 裁剪,限制在 -7 到 7 之間

這類似於經典的 ReLU6 函數,其目的是為了消除激活值中的極端異常值,確保數值分佈更穩定,從而降低量化過程中帶來的精度損失。這對於 Float4 這種低精度格式至關重要

上下文窗口:通過 YaRN 技術擴展至 128K

模型將擁有 128K 的超長上下文窗口,但它並非從頭開始訓練的。據推測,該模型的基礎上下文窗口為 4K,之後在訓練中途採用 YaRN 等技術將其無縫擴展至 128K

注意力機制:滑動窗口注意力(SWA)與注意力匯聚(Attention Sinks)

為了高效處理 128K 的長文本,模型採用了兩大關鍵技術:

滑動窗口注意力(SWA):窗口大小為 128。這意味着在計算注意力時,每個詞元(token)只需關注其鄰近的 128 個詞元,從而將計算複雜度從二次方降低到線性級別

注意力匯聚(Attention Sinks):為了解決 SWA 會遺忘早期重要信息的問題,模型引入了注意力匯聚技術。該技術強制模型始終關注最開始的幾個(例如 4 或 8 個)關鍵 token,確保模型在處理長序列時不會失憶。NVIDIA 的 TensorRT-LLM 也已支持此功能

底層架構:融合 Llama/Mixtral 特點並使用偏置項

模型的基礎架構很可能借鑑了 Llama 和 Mixtral 等成功的開源模型。關鍵特徵包括:

合併的 QKV 矩陣:將注意力機制中的查詢(Q)、鍵(K)、值(V)矩陣合併,以優化計算效率

廣泛使用偏置項(Biases):與一些模型(如 Llama)去掉偏置項的做法不同,該模型似乎在所有模塊(包括 MLP、注意力層甚至 MoE 的路由層)都保留了偏置項,這可能有助於提升模型的擬合能力

AI 寒武紀,原文標題:《OpenAI 開源模型泄露:六大技術細節》

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。