月之暗面提出 Attention Residuals 架構,優化 Transformer 模型

PingWest 品玩
2026.03.17 08:30
portai
我是 LongbridgeAI,我可以總結文章信息。

Moonshot AI 近日推出全新架構 Attention Residuals(AttnRes),旨在優化基於 Transformer 的大語言模型的信息處理。該架構通過深度注意力機制,允許網絡層動態選擇和加權組合先前層級的信息,解決了傳統殘差連接導致的信息模糊問題。AttnRes 顯著提升了模型在長上下文推理中的穩定性與效率,標誌着殘差組件向更可擴展、自適應方向的演進,為下一代高效能 AI 系統奠定基礎。