---
title: "Fish Audio 發佈 S2-Pro 模型，推動高保真實時語音合成新標準"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/278669226.md"
description: "Fish Audio 推出旗艦級文本到語音模型 S2-Pro，採用雙自迴歸架構，實現 44.1kHz 高保真音頻輸出。該模型支持零樣本語音克隆，僅需 10 至 30 秒參考音頻即可復現説話人身份與情感狀態，並通過自然語言標籤實現情緒控制。S2-Pro 在 NVIDIA H200 硬件上實現約 100 毫秒的首音頻延遲，已在開源生態中提供，訓練數據涵蓋超 30 萬小時多語種語音，為實時交互式 AI 應用樹立新標杆。"
datetime: "2026-03-11T06:46:02.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/278669226.md)
  - [en](https://longbridge.com/en/news/278669226.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/278669226.md)
---

# Fish Audio 發佈 S2-Pro 模型，推動高保真實時語音合成新標準

品玩 3 月 11 日訊，據 MarketChpost 報道，Fish Audio 正式推出其旗艦級文本到語音（TTS）模型 S2-Pro，標誌着語音合成技術向集成化大音頻模型（LAM）演進。該模型採用創新的雙自迴歸（Dual-AR）架構，將生成過程分為 40 億參數的 “慢速 AR” 模塊（負責語言結構與韻律）和 4 億參數的 “快速 AR” 模塊（處理音色、氣息等高頻細節），實現 44.1kHz 高保真音頻輸出。

S2-Pro 支持零樣本語音克隆，僅需 10 至 30 秒參考音頻即可復現説話人身份與情感狀態，並通過內聯自然語言標籤（如 \[whisper\]、\[laugh\]）實現細粒度情緒控制。模型基於殘差矢量量化（RVQ）技術，在多層碼本中高效壓縮音頻信息，保留非語言發聲（如嘆息、停頓）等細節。

在性能方面，S2-Pro 在 NVIDIA H200 硬件上實現約 100 毫秒的首音頻延遲（TTFA），並集成 SGLang 框架與 RadixAttention 機制，通過緩存鍵值狀態顯著降低重複語音生成的預填充開銷，支持多角色對話單次推理。

該模型已在開源生態中提供，訓練數據涵蓋超 30 萬小時多語種語音，為實時交互式 AI 應用樹立新標杆。

### 相關股票

- [AUDC.US](https://longbridge.com/zh-HK/quote/AUDC.US.md)
- [NVDA.US](https://longbridge.com/zh-HK/quote/NVDA.US.md)

## 相關資訊與研究

- [信報 Mobile 應用程式全新 7.3 版本 功能升級 - 信報語音、首頁設定](https://longbridge.com/zh-HK/news/286024663.md)
- [AI 時代來了，你的聲音還屬於你嗎？泰勒絲掀起 AI 時代人格權保衞戰](https://longbridge.com/zh-HK/news/286009910.md)
- [創泓科技發現新商機 搶攻無人載具安全領域](https://longbridge.com/zh-HK/news/285663074.md)
- [階躍最新語音模型位列 Artificial Analysis 評測榜中國第一](https://longbridge.com/zh-HK/news/285810202.md)
- [OpenAI 發表三款語音模型，推理、翻譯及語音轉錄能力加速應用落地](https://longbridge.com/zh-HK/news/285664777.md)