小米最強語音大模型開源!億小時訓練,講脱口秀説快板溜得很

華爾街見聞
2025.09.19 08:55
portai
我是 PortAI,我可以總結文章信息。

小米開源了其首個原生端到端語音模型 Xiaomi-MiMo-Audio,參數規模 70 億,預訓練數據超 1 億小時,且在語音智能和音頻理解基準測試中實現 SOTA。該模型具備流暢對話、音頻字幕、音頻推理等多種能力,能自然説天津方言,並具備語音續寫能力。小米稱其發佈為 “語音閉源屆的 GPT-3 時刻”。目前已開源多種模型和技術報告。