--- title: "Fish Audio 發佈 S2-Pro 模型,推動高保真實時語音合成新標準" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/278669226.md" description: "Fish Audio 推出旗艦級文本到語音模型 S2-Pro,採用雙自迴歸架構,實現 44.1kHz 高保真音頻輸出。該模型支持零樣本語音克隆,僅需 10 至 30 秒參考音頻即可復現説話人身份與情感狀態,並通過自然語言標籤實現情緒控制。S2-Pro 在 NVIDIA H200 硬件上實現約 100 毫秒的首音頻延遲,已在開源生態中提供,訓練數據涵蓋超 30 萬小時多語種語音,為實時交互式 AI 應用樹立新標杆。" datetime: "2026-03-11T06:46:02.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/278669226.md) - [en](https://longbridge.com/en/news/278669226.md) - [zh-HK](https://longbridge.com/zh-HK/news/278669226.md) --- # Fish Audio 發佈 S2-Pro 模型,推動高保真實時語音合成新標準 品玩 3 月 11 日訊,據 MarketChpost 報道,Fish Audio 正式推出其旗艦級文本到語音(TTS)模型 S2-Pro,標誌着語音合成技術向集成化大音頻模型(LAM)演進。該模型採用創新的雙自迴歸(Dual-AR)架構,將生成過程分為 40 億參數的 “慢速 AR” 模塊(負責語言結構與韻律)和 4 億參數的 “快速 AR” 模塊(處理音色、氣息等高頻細節),實現 44.1kHz 高保真音頻輸出。 S2-Pro 支持零樣本語音克隆,僅需 10 至 30 秒參考音頻即可復現説話人身份與情感狀態,並通過內聯自然語言標籤(如 \[whisper\]、\[laugh\])實現細粒度情緒控制。模型基於殘差矢量量化(RVQ)技術,在多層碼本中高效壓縮音頻信息,保留非語言發聲(如嘆息、停頓)等細節。 在性能方面,S2-Pro 在 NVIDIA H200 硬件上實現約 100 毫秒的首音頻延遲(TTFA),並集成 SGLang 框架與 RadixAttention 機制,通過緩存鍵值狀態顯著降低重複語音生成的預填充開銷,支持多角色對話單次推理。 該模型已在開源生態中提供,訓練數據涵蓋超 30 萬小時多語種語音,為實時交互式 AI 應用樹立新標杆。 ### 相關股票 - [AUDC.US](https://longbridge.com/zh-HK/quote/AUDC.US.md) - [NVDA.US](https://longbridge.com/zh-HK/quote/NVDA.US.md) ## 相關資訊與研究 - [信報 Mobile 應用程式全新 7.3 版本 功能升級 - 信報語音、首頁設定](https://longbridge.com/zh-HK/news/286024663.md) - [AI 時代來了,你的聲音還屬於你嗎?泰勒絲掀起 AI 時代人格權保衞戰](https://longbridge.com/zh-HK/news/286009910.md) - [OpenAI 將 Codex 導入 ChatGPT 手機端 加速爭奪行動端 AI 程式設計市場](https://longbridge.com/zh-HK/news/286486699.md) - [創泓科技發現新商機 搶攻無人載具安全領域](https://longbridge.com/zh-HK/news/285663074.md) - [階躍最新語音模型位列 Artificial Analysis 評測榜中國第一](https://longbridge.com/zh-HK/news/285810202.md)