--- title: "Fish Audio 发布 S2-Pro 模型,推动高保真实时语音合成新标准" type: "News" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/278669226.md" description: "Fish Audio 推出旗舰级文本到语音模型 S2-Pro,采用双自回归架构,实现 44.1kHz 高保真音频输出。该模型支持零样本语音克隆,仅需 10 至 30 秒参考音频即可复现说话人身份与情感状态,并通过自然语言标签实现情绪控制。S2-Pro 在 NVIDIA H200 硬件上实现约 100 毫秒的首音频延迟,已在开源生态中提供,训练数据涵盖超 30 万小时多语种语音,为实时交互式 AI 应用树立新标杆。" datetime: "2026-03-11T06:46:02.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/278669226.md) - [en](https://longbridge.com/en/news/278669226.md) - [zh-HK](https://longbridge.com/zh-HK/news/278669226.md) --- # Fish Audio 发布 S2-Pro 模型,推动高保真实时语音合成新标准 品玩 3 月 11 日讯,据 MarketChpost 报道,Fish Audio 正式推出其旗舰级文本到语音(TTS)模型 S2-Pro,标志着语音合成技术向集成化大音频模型(LAM)演进。该模型采用创新的双自回归(Dual-AR)架构,将生成过程分为 40 亿参数的 “慢速 AR” 模块(负责语言结构与韵律)和 4 亿参数的 “快速 AR” 模块(处理音色、气息等高频细节),实现 44.1kHz 高保真音频输出。 S2-Pro 支持零样本语音克隆,仅需 10 至 30 秒参考音频即可复现说话人身份与情感状态,并通过内联自然语言标签(如 \[whisper\]、\[laugh\])实现细粒度情绪控制。模型基于残差矢量量化(RVQ)技术,在多层码本中高效压缩音频信息,保留非语言发声(如叹息、停顿)等细节。 在性能方面,S2-Pro 在 NVIDIA H200 硬件上实现约 100 毫秒的首音频延迟(TTFA),并集成 SGLang 框架与 RadixAttention 机制,通过缓存键值状态显著降低重复语音生成的预填充开销,支持多角色对话单次推理。 该模型已在开源生态中提供,训练数据涵盖超 30 万小时多语种语音,为实时交互式 AI 应用树立新标杆。 ### 相关股票 - [AUDC.US](https://longbridge.com/zh-CN/quote/AUDC.US.md) - [NVDA.US](https://longbridge.com/zh-CN/quote/NVDA.US.md) ## 相关资讯与研究 - [阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一](https://longbridge.com/zh-CN/news/285810202.md) - [拿下亚马逊 Ring 订单,AI 语音初创公司 Vapi 估值达 5 亿美元](https://longbridge.com/zh-CN/news/286343795.md) - [香港语音社媒应用 Hacker InterstellarIPO 定价 10.5-11.5 美元/股 拟筹资 3100 万美元](https://longbridge.com/zh-CN/news/286222718.md) - [Grok 语音模式登陆 Apple CarPlay,拓展车载交互新场景](https://longbridge.com/zh-CN/news/285787982.md) - [Krisp 推出 VIVA 2.0,重构语音 AI 基础设施](https://longbridge.com/zh-CN/news/285646262.md)