Knowledge Vault

Snapshot Reader

Captured

📌 One-Sentence Summary

OpenAI 在 API 中推出了三个新的音频模型——GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper——为开发者提供更智能、更自然且可操作的实时语音应用能力。

📝 Summary

OpenAI 在其 API 中发布了三个新的音频模型，旨在推进开发者的实时语音智能。GPT-Realtime-2 是旗舰模型，具备 GPT-5 级别的推理能力、128K 上下文窗口、并行工具调用、可调节的推理深度以及改进的恢复行为，使语音智能体能够推理、执行操作并维持自然的对话流程。GPT-Realtime-Translate 支持从超过 70 种输入语言到 13 种输出语言的实时翻译，同时保留原意和语速。GPT-Realtime-Whisper 是一个流式语音转文本模型，用于低延迟转录。文章详细介绍了三种新兴的语音 AI 模式——语音到行动、系统到语音和语音到语音——并展示了 Zillow、Priceline 和德国电信等早期采用者的案例。定价方面，GPT-Realtime-2 为 32 美元/100 万音频输入 token，Translate 为 0.034 美元/分钟，Whisper 为 0.017 美元/分钟。安全措施包括主动分类器和对欧盟数据驻留的支持。

💡 Main Points

OpenAI 推出三个新的实时音频模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。 GPT-Realtime-2 为复杂的语音交互提供 GPT-5 级别的推理能力；GPT-Realtime-Translate 提供实时多语言翻译；GPT-Realtime-Whisper 提供低延迟流式转录。
GPT-Realtime-2 为生产级语音智能体引入了关键能力，包括 128K 上下文窗口、并行工具调用和可调节的推理深度。 这些功能使模型能够处理更长的会话、同时调用多个工具，并在延迟和推理深度之间取得平衡，使其适用于复杂的真实世界语音应用。
这些模型支持三种新兴的语音 AI 模式：语音到行动、系统到语音和语音到语音。 这些模式描述了语音界面如何用于完成任务、提供主动指导以及促进跨语言对话，正如 Zillow 和德国电信等合作伙伴所展示的那样。

💬 Key Quotes

语音正成为人们使用软件最自然的方式之一。
一个语音智能体需要理解用户的意图、跟踪上下文、在请求发生变化时进行恢复、在对话继续的同时使用工具，并以一种适应当下情境的方式做出回应。
总的来说，我们推出的这些模型将实时音频从简单的问答模式，转变为能够实际工作的语音界面：在对话展开的过程中进行倾听、推理、翻译、转录和采取行动。
GPT-Realtime-2 的突出之处在于它为复杂的语音交互带来了智能和可靠的工具调用能力。在我们最难的对抗性基准测试中，经过提示优化后，这转化为通话成功率提升了 26 个百分点（95% 对比 69%）。
为印度构建语音 AI 意味着要处理多样化的地区语音。在我们对印地语、泰米尔语和泰卢固语的评估中，GPT-Realtime-Translate 的词错误率比我们测试的任何其他模型都低 12.5%。

📊 Article Meta

AI Screening：94

Featured：Yes

Source：OpenAI Blog

Author：OpenAI

Category：人工智能

Language：英文

Read Time：7 min

Word Count：1598

Tags： OpenAI, GPT-Realtime-2, 语音 AI, 实时 API, 语音翻译