---
title: "Fish Audio 发布 S2-Pro 模型，推动高保真实时语音合成新标准"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/278669226.md"
description: "Fish Audio 推出旗舰级文本到语音模型 S2-Pro，采用双自回归架构，实现 44.1kHz 高保真音频输出。该模型支持零样本语音克隆，仅需 10 至 30 秒参考音频即可复现说话人身份与情感状态，并通过自然语言标签实现情绪控制。S2-Pro 在 NVIDIA H200 硬件上实现约 100 毫秒的首音频延迟，已在开源生态中提供，训练数据涵盖超 30 万小时多语种语音，为实时交互式 AI 应用树立新标杆。"
datetime: "2026-03-11T06:46:02.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/278669226.md)
  - [en](https://longbridge.com/en/news/278669226.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/278669226.md)
---

# Fish Audio 发布 S2-Pro 模型，推动高保真实时语音合成新标准

品玩 3 月 11 日讯，据 MarketChpost 报道，Fish Audio 正式推出其旗舰级文本到语音（TTS）模型 S2-Pro，标志着语音合成技术向集成化大音频模型（LAM）演进。该模型采用创新的双自回归（Dual-AR）架构，将生成过程分为 40 亿参数的 “慢速 AR” 模块（负责语言结构与韵律）和 4 亿参数的 “快速 AR” 模块（处理音色、气息等高频细节），实现 44.1kHz 高保真音频输出。

S2-Pro 支持零样本语音克隆，仅需 10 至 30 秒参考音频即可复现说话人身份与情感状态，并通过内联自然语言标签（如 \[whisper\]、\[laugh\]）实现细粒度情绪控制。模型基于残差矢量量化（RVQ）技术，在多层码本中高效压缩音频信息，保留非语言发声（如叹息、停顿）等细节。

在性能方面，S2-Pro 在 NVIDIA H200 硬件上实现约 100 毫秒的首音频延迟（TTFA），并集成 SGLang 框架与 RadixAttention 机制，通过缓存键值状态显著降低重复语音生成的预填充开销，支持多角色对话单次推理。

该模型已在开源生态中提供，训练数据涵盖超 30 万小时多语种语音，为实时交互式 AI 应用树立新标杆。

### 相关股票

- [AUDC.US](https://longbridge.com/zh-CN/quote/AUDC.US.md)
- [NVDA.US](https://longbridge.com/zh-CN/quote/NVDA.US.md)

## 相关资讯与研究

- [阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一](https://longbridge.com/zh-CN/news/285810202.md)
- [拿下亚马逊 Ring 订单，AI 语音初创公司 Vapi 估值达 5 亿美元](https://longbridge.com/zh-CN/news/286343795.md)
- [香港语音社媒应用 Hacker InterstellarIPO 定价 10.5-11.5 美元/股 拟筹资 3100 万美元](https://longbridge.com/zh-CN/news/286222718.md)
- [Grok 语音模式登陆 Apple CarPlay，拓展车载交互新场景](https://longbridge.com/zh-CN/news/285787982.md)
- [Krisp 推出 VIVA 2.0，重构语音 AI 基础设施](https://longbridge.com/zh-CN/news/285646262.md)