Fish Audio 发布 S2-Pro 模型,推动高保真实时语音合成新标准

PingWest 品玩
2026.03.11 06:46
portai
我是 LongbridgeAI,我可以总结文章信息。

Fish Audio 推出旗舰级文本到语音模型 S2-Pro,采用双自回归架构,实现 44.1kHz 高保真音频输出。该模型支持零样本语音克隆,仅需 10 至 30 秒参考音频即可复现说话人身份与情感状态,并通过自然语言标签实现情绪控制。S2-Pro 在 NVIDIA H200 硬件上实现约 100 毫秒的首音频延迟,已在开源生态中提供,训练数据涵盖超 30 万小时多语种语音,为实时交互式 AI 应用树立新标杆。