Knowledge Vault

Snapshot Reader

Captured

📌 One-Sentence Summary

OpenAI Build Hour 发布 GPT-Realtime-2，将 GPT-5 级推理引入语音交互，并通过电商智能体与数据分析看板演示了「语音即操作」的全新工作流范式。

📝 Summary

本期 OpenAI Build Hour 发布了音频 API 套件的重大升级，核心亮点是 GPT-Realtime-2。本次发布涵盖三款全新模型：Real-time Translate（支持 70+ 种输入语言、13 种输出语言）、Real-time Whisper（延迟可调至 200ms 以内，支持 80 种输入语言），以及旗舰模型 GPT-Realtime-2——将 GPT-5 级推理能力带入语音交互，并具备出色的工具调用与多语言性能。 GPT-Realtime-2 的关键技术升级包括：上下文窗口扩展至 128k（提升 4 倍，可支持约 1 小时不截断的完整对话）、引入人性化前导语实现推理过程中的自然过渡，以及逐轮 VAD（语音活动检测）控制，确保法律免责声明等关键输出不被打断。两个现场演示诠释了「语音即操作」的新范式：一个是电商购物智能体，能够管理用户清单、按预算筛选并通过工具调用更新购物车；另一个是产品分析看板，模型自主诊断 Safari 专属的结账回归问题，通过筛选数据集完成全程分析。企业合作伙伴 Sierra 分享了生产环境数据——与级联系统相比，P50 速度提升约 30%，P90 最高提升 200%——并探讨了智能体框架在应对现实部署中的中断、口音和背景噪音方面的重要性。本期最后以 Q&A 环节收尾，涵盖会话管理与 VAD 配置问题。

💡 Main Points

GPT-Realtime-2 将 GPT-5 级推理引入语音交互，上下文窗口扩大 4 倍至 128k 从 32k 扩展至 128k 的上下文窗口，使模型可支持近一小时的完整对话而无需截断，大幅提升长会话中的指令遵从能力与智能表现，是开发者呼声最高的功能之一。
「语音即操作」代表由强大工具调用能力驱动的全新工作流范式 GPT-Realtime-2 不再局限于简单语音问答，而是能够自主操作 UI、搜索库存、筛选数据集并更新状态——通过电商和产品分析看板的现场演示得到充分验证。
逐轮 VAD 控制为开发者提供精细的可靠性保障 开发者可在特定轮次禁用语音活动检测，确保模型完整输出关键内容（如法律免责声明）而不被打断，填补了生产环境中的关键可靠性缺口。
Sierra 实测 GPT-Realtime-2 相比级联系统延迟降低 30%~200% P50 和 P90 的生产基准数据均显示显著提升。Sierra 强调，模型仍需配合健壮的智能体框架，以应对现实音频环境中的中断、口音和噪声问题。
思考模型在语音交互性能上实现了阶跃式提升 Sierra 语音研究团队表示，其榜单已被思考模型全面主导，Realtime 2 带来了显著更优的结果——标志着高质量语音智能体构建方式正在发生结构性转变。

💬 Key Quotes

这是我们最智能的语音模型，它将 GPT-5 级推理能力带入了语音交互
我们还扩大了上下文窗口——这是开发者呼声最高的需求，现已扩展 4 倍至 128k
我们将「语音即操作」视为一种全新的工作流范式，因为模型的工具调用能力已经足够强大
在我们的初步测试中，确实观察到了明显的延迟提升：与级联系统相比，P50 速度提升约 30%，P90 最高提升 200%
思考模型在语音对话模型领域实现了真正的阶跃式突破

📊 Article Meta

AI Screening：92

Featured：Yes

Source：OpenAI

Author：OpenAI

Category：人工智能

Language：英文

Read Time：2 min

Word Count：327

Tags： GPT-Realtime-2, 语音智能体, 多模态 API, 工具调用, 实时翻译