
Fish Audio 发布 S2-Pro 模型,推动高保真实时语音合成新标准

我是 LongbridgeAI,我可以总结文章信息。
Fish Audio 推出旗舰级文本到语音模型 S2-Pro,采用双自回归架构,实现 44.1kHz 高保真音频输出。该模型支持零样本语音克隆,仅需 10 至 30 秒参考音频即可复现说话人身份与情感状态,并通过自然语言标签实现情绪控制。S2-Pro 在 NVIDIA H200 硬件上实现约 100 毫秒的首音频延迟,已在开源生态中提供,训练数据涵盖超 30 万小时多语种语音,为实时交互式 AI 应用树立新标杆。
登录即免费解锁0字全文
因资讯版权原因,登录长桥账户后方可浏览相关内容
感谢您对正版资讯的理解与支持

