--- title: "OpenAI 的語音模型 gpt-realtime 的潛在影響" description: "OpenAI 推出了其新的語音到語音模型 gpt-realtime,增強了自然語言和推理能力。該模型支持新的 API 功能,包括模型上下文協議(MCP)和圖像輸入,使其適用於實時應用,如客户支持和教育。分析師指出其在提高人類表達能力方面的潛力,但也強調了延遲問題和對聲音模仿的監管審查等挑戰。該模型的定價為每百萬個輸入令牌 32 美元,輸出為 64 美元,並設有防止濫用的安全措施" type: "news" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/255680309.md" published_at: "2025-09-02T22:04:56.000Z" --- # OpenAI 的語音模型 gpt-realtime 的潛在影響 > OpenAI 推出了其新的語音到語音模型 gpt-realtime,增強了自然語言和推理能力。該模型支持新的 API 功能,包括模型上下文協議(MCP)和圖像輸入,使其適用於實時應用,如客户支持和教育。分析師指出其在提高人類表達能力方面的潛力,但也強調了延遲問題和對聲音模仿的監管審查等挑戰。該模型的定價為每百萬個輸入令牌 32 美元,輸出為 64 美元,並設有防止濫用的安全措施 OpenAI 的新語音對語音模型旨在實現更自然的語音和推理,展示了語音對語音技術的持續演變,以及 AI 語音與人類語音之間的差異日益模糊。 在 8 月 28 日,這家 AI 供應商推出了 gpt-realtime 和新的 API 功能,包括模型上下文協議(MCP)服務器支持、圖像輸入和通過會話發起協議(SIP)進行電話呼叫。SIP 是一種用於發起、管理和終止多媒體通信會話的協議,如語音和視頻通話、即時消息和 IP 網絡上的遊戲。 OpenAI 表示,新的 gpt-realtime 語音對語音 在解釋系統消息和開發者提示方面表現良好。這意味着該模型可以逐字讀取支持電話中的免責聲明腳本,在句子中間切換語言或將字母數字段落重複給用户。OpenAI 還發布了兩個新聲音,Cedar 和 Marin,這些聲音在實時 API 中可用。 gpt-realtime 中的圖像輸入還允許用户將圖像、照片、截圖以及音頻或文本添加到實時 API 中。OpenAI 在去年十月推出了實時 API,現在已普遍可用,連同新的語音模型。 ## 一些好處 該模型最適合自然聲音的 語音代理 將蓬勃發展。 "gpt-realtime 將語音識別、推理和語音生成統一為一個模型,消除了多模型管道的延遲,"Gartner 的分析師 Arun Chandrasekaran 説。"這使其適合實時、以語音為主的應用程序,在這些應用中流暢性和速度至關重要。" 他補充説,客户支持和呼叫中心將受益於富有表現力的多語言聲音。此外,教育和醫療行業可以利用它們進行輔導或患者互動。 Chandrasekaran 表示,這些新聲音對人類的表現力也有益。 "它忠實地遵循指令,承諾更平滑的情感語調,"他説。 新的模型在用户體驗方面是一個不錯的演變,The Futurum Group 的分析師 David Nicholson 表示。 "一些新聲音聽起來更自然,\[這\] 會讓一些人感到高興,而讓另一些人感到不安,"他説。"它仍然不是最自然的,但現在是最流暢的'後端'。" 他補充説,開發者之前需要為 自動語音識別、語言理解和文本轉語音使用不同的模型。 "統一的語音對語音管道簡化了集成,"Nicholson 説。"這對開發者來説很重要,他們會喜歡簡化的工作流程。" ## 一些挑戰 然而,新的模型也帶來了一些挑戰。 Nicholson 表示,他在 5G 和家庭 Wi-Fi 上的測試顯示,該模型"仍然不是完全實時的。" > 現在,我們至少有跡象表明我們有時在與 AI 交談。**David Nicholson** The Futurum Group 分析師 他補充説,延遲會隨着時間的推移而改善,甚至可能減輕 AI 語音變得如此真實的怪異感。 "現在,我們至少有跡象表明我們有時在與 AI 交談,"他説。"一旦延遲減少到足夠的程度,事情就會變得可怕。" 這種可怕感來自於人們將難以區分 AI 對話和人類對話 的事實。 許多消費者已經很難區分什麼是 AI,什麼不是 AI。 "關於語音模仿的監管審查是一個主要的潛在挑戰,"Chandrasekaran 説。 根據 OpenAI 的説法,實時 API 具有幫助防止濫用的安全措施。開發者還可以通過 Agents SDK 添加自己的安全防護措施。 Chandrasekaran 補充説,語音對語音模型的另一個挑戰是 32k 的上下文窗口。他表示,與競爭對手相比,這個窗口較小,限制了長篇應用或高度依賴記憶的應用。 "32k 的限制支持擴展對話和多模態任務,但限制了非常長的對話或企業文檔處理,"他説。 gpt-realtime 模型的輸入費用為每百萬個令牌 32 美元,輸出費用為每百萬個令牌 64 美元。OpenAI 還透露,MCP 支持現在在實時 API 中可用。 *Esther Shittu 是 Informa TechTarget 的新聞撰稿人和播客主持人,專注於人工智能軟件和系統。* ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-HK/quote/OpenAI.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | ChatGPT 開始測試投放廣告 | OpenAI 開始在 ChatGPT 的免費版和最低付費版中測試廣告,旨在增加收入以應對成本上升。測試面向美國成年用户,涵蓋免費和 Go 訂閲方案(每月 8 美元)。儘管大多數用户未付費,OpenAI 承諾廣告不會影響回答內容,用户對話內容 | [Link](https://longbridge.com/zh-HK/news/275484431.md) | | OpenAI 首款硬件據報今年推 類似 AirPods 受累記憶體短缺要「降格」 | OpenAI 計劃推出首款硬體「Dime」,類似 AirPods,預計今年發布。因內存短缺,原本的高規格設計被簡化,最終產品將為簡單耳機。該產品原定搭載高性能 Exynos 晶片,具備獨立計算能力,但因成本問題調整。預計由富士康在越南生產, | [Link](https://longbridge.com/zh-HK/news/275219739.md) | | 一切向 “錢” 看!ChatGPT 正式開測廣告,網上罵聲一片 | OpenAI 開始對免費與低價訂閲用户測試廣告功能,以緩解高昂運營成本。此舉引發用户強烈反對,被批損害體驗與信任。競爭對手 Anthropic 藉機諷刺,OpenAI CEO 則激烈回擊。此舉背後是為支撐其千億美元級融資談判,向資本市場證明 | [Link](https://longbridge.com/zh-HK/news/275435957.md) | | OpenAI 計劃本週在 ChatGPT 中推出新的模型,ChatGPT 月增長超過 10% | OpenAI 計劃本週在 ChatGPT 中推出新的模型,ChatGPT 月增長超過 10%。風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、 | [Link](https://longbridge.com/zh-HK/news/275322620.md) | | “OpenAI 鏈” 強勁反彈 | OpenAI 的 ChatGPT 月增長率已恢復到 10% 以上,計劃本週推出新模型,推動復甦。Similarweb 報告顯示,ChatGPT 在 2026 年首月實現應用下載量和月活躍用户數的增長,Codex 使用量增長約 50%。同時, | [Link](https://longbridge.com/zh-HK/news/275376241.md) | --- > **免責聲明**:本文內容僅供參考,不構成任何投資建議。