阿里 DeepSeek 時刻!開源新架構模型:推理快 10 倍、成本暴降 90%

華爾街見聞
2025.09.12 00:15
portai
我是 PortAI,我可以總結文章信息。

阿里巴巴於今晨開源新架構模型 Qwen3-Next-80B-A3B,採用混合注意力機制和高稀疏性 MoE,訓練成本較 Qwen3-32B 降低 90%,推理效率提升 10 倍。該模型在超長文本處理上表現優異,性能可媲美阿里旗艦模型 Qwen3-235B,並超越谷歌 Gemini-2.5-Flash,成為低能耗開源模型之一。網友對其架構讚賞有加,認為其設計出色。