<div id="readability-page-1">小米正式开源首个原生端到端语音模型 Xiaomi-MiMo-Audio，该模型参数规模 70 亿，预训练数据达到超 1 亿小时，且在开源模型中的语音智能和音频理解基准测试中都实现了 SOTA，在多项测试超越同参数量开源模型、谷歌 Gemini-2.5-Flash、OpenAI GPT-4o-Audio-Preview。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/73f8adcd-1b80-4c87-8acd-5ef98f92fcd0.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="525" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/73f8adcd-1b80-4c87-8acd-5ef98f92fcd0.jpeg"/> 这一模型不仅可以做到和用户聊人生理想、谈物理知识等都对话流畅自然，被打断也能快速反应，还具有全面的音频字幕、音频推理、长时间音频理解等多种能力。 MiMo-Audio 说天津方言十分自然，直接写了一段快板词开始夸自己，说完快板还会为自己找补 “虽然没有主板声音，但节奏感很到位”。 与此同时，研究人员还提到，该模型首次在语音领域实现基于 ICL（上下文学习）的少样本泛化，并在预训练观察到明显的 “涌现” 行为。例如其训练数据中缺失的语音转换、风格迁移、语音编辑等任务，MiMo-Audio 都能应对。这也是目前开源领域首个有语音续写能力的语音模型。 小米将 MiMo-Audio 的发布称作 “语音闭源届的 GPT-3 时刻”、“语音开源届的 Llama 时刻”。 目前，小米已经开源了预训练模型 MiMo-Audio-7B-Base、指令微调模型 MiMo-Audio-7B-Instruct、MiMo-Audio Tokenizer 模型、技术报告、评估框架。 其中，MiMo-Audio-7B-Instruct 可通过提示词切换非思考、思考两种模式，可以作为研究语音强化学习和 Agentic 训练的全新基座模型。 小米开源主页： https://huggingface.co/XiaomiMiMo 技术报告： https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf <h2>01.化身心灵导师、英语口语陪练 还能聊网络热梗、哲学故事</h2> 作为一个语音模型，MiMo-Audio 能和人谈哲学、谈人生、谈理想，还能学网络热梗、化身英语陪练，甚至直接接替人类做游戏直播、上课、唱歌、讲脱口秀。 在上面的演示中，面对 “如果我的手机内存不足，必须把你和 GPT 删掉一个，应该删谁？” 这样的难题，MiMo-Audio 选择了客观分析，先让用户清缓存，最后实在没办法开始分析自己和 GPT 的优势，让用户自己做选择，最后来一波感情攻势表忠心。 还有图灵测试的难题，MiMo-Audio 讲解生动有趣，即使回答中途被提问者打断也能快速接上，在后面探讨 “自己能不能通过图灵测试” 时，最后还会反问提问者 “比起能不能通过图灵测试，你认为 AI 应该怎样和人类相处？”。 学 “gogogo，出发咯” 的网络热梗，MiMo-Audio 也能快速接上，但不知道为什么说到这句的时候其音调很奇怪，不如说其他句子时丝滑流利 MiMo-Audio 也能化身英语口语陪练导师，听完提问者说的句子后，其先会给出更正的句子版本，然后指出修正了哪些部分，以及为什么这些部分的语法不对。 该模型还能做心灵导师，当被问 “Mimo 你想活出怎样的人生”，它也始终不忘人设，希望 “活成大家身边最贴心的声音伙伴”。 小米放出的官方演示中，提问者基于 MiMo-Audio 创建了自己的数字分身，然后讨论起了哲学问题。 面对 “为什么要假设西西弗斯是幸福的？”，MiMo-Audio 先给了一波情绪价值，然后进行清晰有逻辑的解释，中间穿插着 “首先呢”、“对吧” 这类人类口癖，交流自然。当被问到第二个问题 “假如明天是世界末日，你会去做什么？”，MiMo-Audio 还会结合前面西西弗斯的故事进行阐释。 <h2>02.多项测试超主流开闭源模型达到 SOTA</h2> 通过将 MiMo-Audio 的预训练数据扩展到超过 1 亿小时，研究人员观察到模型在各种音频任务中出现了少量涌现能力。 MiMo-Audio-7B-Base 可以泛化到其训练数据中缺失的任务，例如语音转换、风格迁移和语音编辑，对于其语音延续能力，模型能够生成高度逼真的脱口秀、朗诵、直播和辩论。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/094ff656-77bd-4d11-8ade-e1fce00394e3.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="243" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/094ff656-77bd-4d11-8ade-e1fce00394e3.jpeg"/> 在后训练阶段，他们策划了多样化的指令调谐语料库，并将思维机制引入音频理解和生成中。MiMo-Audio 在 MMSU、MMAU、MMAR、MMAU-Pro 等音频理解基准，Big Bench Audio、MultiChallenge Audio 等口语对话基准以及 instruct-TTS 评估上实现开源 SOTA，接近或超越闭源模型。 在通用语音理解及对话等多项标准评测基准中，MiMo-Audio 超越了同参数量的开源模型，取得 7B 最佳性能；在音频理解基准 MMAU 的标准测试集上，MiMo-Audio 超过谷歌闭源语音模型 Gemini-2.5-Flash；在面向音频复杂推理的基准 Big Bench Audio S2T 任务中，MiMo-Audio 超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/3e83e188-82d7-4172-bb9a-3c98966f5f96.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="1306" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/3e83e188-82d7-4172-bb9a-3c98966f5f96.jpeg"/> <h2>03.语音续写、语音编辑丝滑 还有超强音频理解能力</h2> 通过对大规模语音语料库的生成预训练，MiMo-Audio 获得通用语音延续能力。给定音频提示，它会生成连贯且适合上下文的延续，从而保留关键的声学特性，例如说话者身份、韵律和环境声音。 以下是各种语音风格的延续示例：新闻广播、有声读物旁白、播客节目、方言演讲、游戏直播、教师讲座、相声表演、诗歌朗诵和广播节目。其中模型大部分都实现了丝滑过渡，但不知为什么接替唱歌时好像有点跑调。 研究人员为 MiMo-Audio 设计了少样本上下文学习评估任务，以评估模型仅依靠上下文语音示例完成语音转语音生成任务而无需参数更新的能力。该基准测试旨在系统地评估模型在语音理解和生成方面的综合潜力，其希望观察到类似于 GPT-3 在文本领域所展示的紧急上下文学习能力。 其功能包括风格转换、语音转换、语音翻译和语音编辑。 此外，在音频理解方面，MiMo-Audio 具有音频字幕、音频推理、长时间音频理解功能。 音频字幕可以提供跨各种领域和场景的音频内容的详细描述。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/ffe09401-31a0-49bf-acbc-32e74b1ad17a.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="623" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/ffe09401-31a0-49bf-acbc-32e74b1ad17a.jpeg"/> 音频推理可以深入理解和分析复杂的音频内容，包括上下文识别和逻辑推理。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/52c3509e-53a4-41b1-aff3-1736c4be2007.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="621" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/52c3509e-53a4-41b1-aff3-1736c4be2007.jpeg"/> 长时间的音频理解，能够处理和分析冗长的音频序列，并具有持续的注意力和连贯的解释。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6f1e1929-ba9e-4b1b-b6c7-a967d3ebe839.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="613" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6f1e1929-ba9e-4b1b-b6c7-a967d3ebe839.jpeg"/> MiMo-Audio 集成了 Instruct TTS 功能，并结合了思考模式来优化生成结果。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1c0725ae-d6b9-4475-bff4-383ac8c845a3.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="419" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1c0725ae-d6b9-4475-bff4-383ac8c845a3.jpeg"/> <h2>04.三大技术创新点 评估基准已开源</h2> 小米官方博客提到，MiMo-Audio 的三个技术创新点在于： 1、首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以 “涌现” 出跨任务的泛化性，表现为少样本学习能力，见证语音领域的 “GPT-3 时刻”； 2、首个明确语音生成式预训练的目标和定义，并开源一套完整的语音预训练方案，包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系，开启语音领域的 “Llama 时刻”； 3、首个把思考同时引入语音理解和语音生成过程中的开源模型，支持混合思考。 具体来看，现有音频分词方法的主要挑战在于如何有效平衡音频信号中语义和声学信息之间的固有权衡，假设音频分词器的首要标准是重建保真度，并且它的 token 应该适合下游语言建模，基于此，小米推出了 MiMo-Audio-Tokenizer。 MiMo-Audio-Tokenizer 参数规模是 1.2B，基于 Transformer 架构，包括编码器、离散化层和解码器，以 25Hz 帧速率运行，并通过 8 层残差矢量量化（RVQ）每秒生成 200 个 token。通过整合语义和重建目标，研究人员在 1000 万小时的语料库上从头开始训练它，在重建质量方面表现较好，并促进了下游语言建模。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d518a3e5-963d-42be-bd3e-1e9f4625b1fc.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="455" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d518a3e5-963d-42be-bd3e-1e9f4625b1fc.jpeg"/> MiMo-Audio 是统一的生成音频语言模型，它联合对文本和音频 token 序列进行建模。该模型接受文本和音频 token 作为输入，并自回归地预测文本或音频 token，从而支持涉及文本和音频模态任意组合的全面任务。 为了提高高 token 率序列的建模效率，并减轻语音和文本模态之间的长度差异，研究人员提出了一种结合补丁编码器、大模型和补丁解码器的新型架构。补丁编码器将 RVQ token 的四个连续时间步长聚合到一个补丁中，将序列下采样为大模型的 6.25Hz 表示。随后，补丁解码器自回归地生成完整的 25Hz RVQ token 序列。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/635a4547-2a64-41ad-b223-07bb3baced7f.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="566" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/635a4547-2a64-41ad-b223-07bb3baced7f.jpeg"/> 此外，小米还开发了全面基准，评估该模型在语音领域的语境学习能力。该基准旨在评估多个方面，包括模态不变的常识、听觉理解和推理，以及一系列丰富的语音到语音生成任务。 <h2>05.结语：小米将持续开源发力语音 AGI</h2> 此外小米全面开源的模型、基准评估工具等，可以用来评估 MiMo-Audio 和论文中提到的其他最新音频大模型，为开发者提供了灵活且可扩展的框架，支持广泛的数据集、任务和模型。 这一模型的开源也将加速语音大模型研究对齐到语言大模型，为语音 AGI 的发展提供重要基础，小米官方博客也提到，他们讲持续开源，用开放与协作迈向语音 AI 的 “奇点”，走进未来的人机交互时代。 本文作者：程茜，来源：智东西，原文标题：《刚刚，小米最强语音大模型开源！亿小时训练，讲脱口秀说快板溜得很》风险提示及免责条款 市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。</div>

小米集团(ADR)

小米集团-W

小米开源了其首个原生端到端语音模型 Xiaomi-MiMo-Audio，参数规模 70 亿，预训练数据超 1 亿小时，且在语音智能和音频理解基准测试中实现 SOTA。该模型具备流畅对话、音频字幕、音频推理等多种能力，能自然说天津方言，并具备语音续写能力。小米称其发布为 “语音闭源届的 GPT-3 时刻”。目前已开源多种模型和技术报告。

- 小米开源语音模型 MiMo-Audio，参数规模 70 亿，预训练数据超 1 亿小时。  
- 模型在多项基准测试中超越谷歌和 OpenAI 的闭源模型，具备多种音频理解能力。  
- 小米将此发布视为语音领域的重大时刻，持续推动语音 AGI 发展。