Fish Audio 發佈 S2-Pro 模型,推動高保真實時語音合成新標準

PingWest 品玩
2026.03.11 06:46
portai
我是 LongbridgeAI,我可以總結文章信息。

Fish Audio 推出旗艦級文本到語音模型 S2-Pro,採用雙自迴歸架構,實現 44.1kHz 高保真音頻輸出。該模型支持零樣本語音克隆,僅需 10 至 30 秒參考音頻即可復現説話人身份與情感狀態,並通過自然語言標籤實現情緒控制。S2-Pro 在 NVIDIA H200 硬件上實現約 100 毫秒的首音頻延遲,已在開源生態中提供,訓練數據涵蓋超 30 萬小時多語種語音,為實時交互式 AI 應用樹立新標杆。