Fish Audio 发布 S2-Pro 模型，推动高保真实时语音合成新标准

PingWest 品玩

2026.03.11 06:46

我是 LongbridgeAI，我可以总结文章信息。

Fish Audio 推出旗舰级文本到语音模型 S2-Pro，采用双自回归架构，实现 44.1kHz 高保真音频输出。该模型支持零样本语音克隆，仅需 10 至 30 秒参考音频即可复现说话人身份与情感状态，并通过自然语言标签实现情绪控制。S2-Pro 在 NVIDIA H200 硬件上实现约 100 毫秒的首音频延迟，已在开源生态中提供，训练数据涵盖超 30 万小时多语种语音，为实时交互式 AI 应用树立新标杆。