月之暗面提出 Attention Residuals 架构,优化 Transformer 模型

PingWest 品玩
2026.03.17 08:30
portai
我是 LongbridgeAI,我可以总结文章信息。

Moonshot AI 近日推出全新架构 Attention Residuals(AttnRes),旨在优化基于 Transformer 的大语言模型的信息处理。该架构通过深度注意力机制,允许网络层动态选择和加权组合先前层级的信息,解决了传统残差连接导致的信息模糊问题。AttnRes 显著提升了模型在长上下文推理中的稳定性与效率,标志着残差组件向更可扩展、自适应方向的演进,为下一代高效能 AI 系统奠定基础。