
Fish Audio 發佈 S2-Pro 模型,推動高保真實時語音合成新標準

我是 LongbridgeAI,我可以總結文章信息。
Fish Audio 推出旗艦級文本到語音模型 S2-Pro,採用雙自迴歸架構,實現 44.1kHz 高保真音頻輸出。該模型支持零樣本語音克隆,僅需 10 至 30 秒參考音頻即可復現説話人身份與情感狀態,並通過自然語言標籤實現情緒控制。S2-Pro 在 NVIDIA H200 硬件上實現約 100 毫秒的首音頻延遲,已在開源生態中提供,訓練數據涵蓋超 30 萬小時多語種語音,為實時交互式 AI 應用樹立新標杆。
登錄即免費解鎖0字全文
因資訊版權原因,登入長橋帳戶後方可瀏覽相關內容
多謝您對正版資訊的支持與理解

