Fish Audio 發佈 S2-Pro 模型，推動高保真實時語音合成新標準

PingWest 品玩

2026.03.11 06:46

我是 LongbridgeAI，我可以總結文章信息。

Fish Audio 推出旗艦級文本到語音模型 S2-Pro，採用雙自迴歸架構，實現 44.1kHz 高保真音頻輸出。該模型支持零樣本語音克隆，僅需 10 至 30 秒參考音頻即可復現説話人身份與情感狀態，並通過自然語言標籤實現情緒控制。S2-Pro 在 NVIDIA H200 硬件上實現約 100 毫秒的首音頻延遲，已在開源生態中提供，訓練數據涵蓋超 30 萬小時多語種語音，為實時交互式 AI 應用樹立新標杆。