--- title: "OpenAI 的语音模型 gpt-realtime 的潜在影响" description: "OpenAI 推出了其新的语音到语音模型 gpt-realtime,增强了自然语言和推理能力。该模型支持新的 API 功能,包括模型上下文协议(MCP)和图像输入,使其适用于实时应用,如客户支持和教育。分析师指出其在提高人类表达能力方面的潜力,但也强调了延迟问题和对声音模仿的监管审查等挑战。该模型的定价为每百万个输入令牌 32 美元,输出为 64 美元,并设有防止滥用的安全措施" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/255680309.md" published_at: "2025-09-02T22:04:56.000Z" --- # OpenAI 的语音模型 gpt-realtime 的潜在影响 > OpenAI 推出了其新的语音到语音模型 gpt-realtime,增强了自然语言和推理能力。该模型支持新的 API 功能,包括模型上下文协议(MCP)和图像输入,使其适用于实时应用,如客户支持和教育。分析师指出其在提高人类表达能力方面的潜力,但也强调了延迟问题和对声音模仿的监管审查等挑战。该模型的定价为每百万个输入令牌 32 美元,输出为 64 美元,并设有防止滥用的安全措施 OpenAI 的新语音对语音模型旨在实现更自然的语音和推理,展示了语音对语音技术的持续演变,以及 AI 语音与人类语音之间的差异日益模糊。 在 8 月 28 日,这家 AI 供应商推出了 gpt-realtime 和新的 API 功能,包括模型上下文协议(MCP)服务器支持、图像输入和通过会话发起协议(SIP)进行电话呼叫。SIP 是一种用于发起、管理和终止多媒体通信会话的协议,如语音和视频通话、即时消息和 IP 网络上的游戏。 OpenAI 表示,新的 gpt-realtime 语音对语音 在解释系统消息和开发者提示方面表现良好。这意味着该模型可以逐字读取支持电话中的免责声明脚本,在句子中间切换语言或将字母数字段落重复给用户。OpenAI 还发布了两个新声音,Cedar 和 Marin,这些声音在实时 API 中可用。 gpt-realtime 中的图像输入还允许用户将图像、照片、截图以及音频或文本添加到实时 API 中。OpenAI 在去年十月推出了实时 API,现在已普遍可用,连同新的语音模型。 ## 一些好处 该模型最适合自然声音的 语音代理 将蓬勃发展。 "gpt-realtime 将语音识别、推理和语音生成统一为一个模型,消除了多模型管道的延迟,"Gartner 的分析师 Arun Chandrasekaran 说。"这使其适合实时、以语音为主的应用程序,在这些应用中流畅性和速度至关重要。" 他补充说,客户支持和呼叫中心将受益于富有表现力的多语言声音。此外,教育和医疗行业可以利用它们进行辅导或患者互动。 Chandrasekaran 表示,这些新声音对人类的表现力也有益。 "它忠实地遵循指令,承诺更平滑的情感语调,"他说。 新的模型在用户体验方面是一个不错的演变,The Futurum Group 的分析师 David Nicholson 表示。 "一些新声音听起来更自然,\[这\] 会让一些人感到高兴,而让另一些人感到不安,"他说。"它仍然不是最自然的,但现在是最流畅的'后端'。" 他补充说,开发者之前需要为 自动语音识别、语言理解和文本转语音使用不同的模型。 "统一的语音对语音管道简化了集成,"Nicholson 说。"这对开发者来说很重要,他们会喜欢简化的工作流程。" ## 一些挑战 然而,新的模型也带来了一些挑战。 Nicholson 表示,他在 5G 和家庭 Wi-Fi 上的测试显示,该模型"仍然不是完全实时的。" > 现在,我们至少有迹象表明我们有时在与 AI 交谈。**David Nicholson** The Futurum Group 分析师 他补充说,延迟会随着时间的推移而改善,甚至可能减轻 AI 语音变得如此真实的怪异感。 "现在,我们至少有迹象表明我们有时在与 AI 交谈,"他说。"一旦延迟减少到足够的程度,事情就会变得可怕。" 这种可怕感来自于人们将难以区分 AI 对话和人类对话 的事实。 许多消费者已经很难区分什么是 AI,什么不是 AI。 "关于语音模仿的监管审查是一个主要的潜在挑战,"Chandrasekaran 说。 根据 OpenAI 的说法,实时 API 具有帮助防止滥用的安全措施。开发者还可以通过 Agents SDK 添加自己的安全防护措施。 Chandrasekaran 补充说,语音对语音模型的另一个挑战是 32k 的上下文窗口。他表示,与竞争对手相比,这个窗口较小,限制了长篇应用或高度依赖记忆的应用。 "32k 的限制支持扩展对话和多模态任务,但限制了非常长的对话或企业文档处理,"他说。 gpt-realtime 模型的输入费用为每百万个令牌 32 美元,输出费用为每百万个令牌 64 美元。OpenAI 还透露,MCP 支持现在在实时 API 中可用。 *Esther Shittu 是 Informa TechTarget 的新闻撰稿人和播客主持人,专注于人工智能软件和系统。* ### Related Stocks - [OpenAI.NA - OpenAI](https://longbridge.com/zh-CN/quote/OpenAI.NA.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | Microsoft Seeks Greater AI Independence From OpenAI | Microsoft is working to reduce its dependence on OpenAI by developing its own AI models, aiming for self-sufficiency by | [Link](https://longbridge.com/zh-CN/news/275781856.md) | | OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | OpenAI says starting to roll out a test for ads in ChatGPT today to a subset of free and Go users in the U.S. | [Link](https://longbridge.com/zh-CN/news/275355173.md) | | OpenAI's GPT-5.3-Codex Faces California AI Safety Law Scrutiny As Watchdog Alleges High-Risk Violations | OpenAI is facing potential fines for alleged violations of California's AI safety law with its GPT-5.3-Codex model. The | [Link](https://longbridge.com/zh-CN/news/275584531.md) | | GPT-5 bests human judges in legal smack down | Legal scholars have found that OpenAI's GPT-5 outperforms human judges in adhering to the law, achieving a 100% complian | [Link](https://longbridge.com/zh-CN/news/276008190.md) | | OpenAI’s supposedly ‘leaked’ Super Bowl ad with ear buds and a shiny orb was a hoax | OpenAI's rumored Super Bowl ad featuring earbuds and a shiny orb was revealed to be a hoax. The false information stemme | [Link](https://longbridge.com/zh-CN/news/275266132.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。