阿里 DeepSeek 时刻!开源新架构模型:推理快 10 倍、成本暴降 90%

华尔街见闻
2025.09.12 00:15
portai
我是 PortAI,我可以总结文章信息。

阿里巴巴于今晨开源新架构模型 Qwen3-Next-80B-A3B,采用混合注意力机制和高稀疏性 MoE,训练成本较 Qwen3-32B 降低 90%,推理效率提升 10 倍。该模型在超长文本处理上表现优异,性能可媲美阿里旗舰模型 Qwen3-235B,并超越谷歌 Gemini-2.5-Flash,成为低能耗开源模型之一。网友对其架构赞赏有加,认为其设计出色。