Snapshot Reader
Captured
📌 One-Sentence Summary
OpenAI Build Hour 发布 GPT-Realtime-2,将 GPT-5 级推理引入语音交互,并通过电商智能体与数据分析看板演示了「语音即操作」的全新工作流范式。
📝 Summary
本期 OpenAI Build Hour 发布了音频 API 套件的重大升级,核心亮点是 GPT-Realtime-2。本次发布涵盖三款全新模型:Real-time Translate(支持 70+ 种输入语言、13 种输出语言)、Real-time Whisper(延迟可调至 200ms 以内,支持 80 种输入语言),以及旗舰模型 GPT-Realtime-2——将 GPT-5 级推理能力带入语音交互,并具备出色的工具调用与多语言性能。 GPT-Realtime-2 的关键技术升级包括:上下文窗口扩展至 128k(提升 4 倍,可支持约 1 小时不截断的完整对话)、引入人性化前导语实现推理过程中的自然过渡,以及逐轮 VAD(语音活动检测)控制,确保法律免责声明等关键输出不被打断。 两个现场演示诠释了「语音即操作」的新范式:一个是电商购物智能体,能够管理用户清单、按预算筛选并通过工具调用更新购物车;另一个是产品分析看板,模型自主诊断 Safari 专属的结账回归问题,通过筛选数据集完成全程分析。企业合作伙伴 Sierra 分享了生产环境数据——与级联系统相比,P50 速度提升约 30%,P90 最高提升 200%——并探讨了智能体框架在应对现实部署中的中断、口音和背景噪音方面的重要性。本期最后以 Q&A 环节收尾,涵盖会话管理与 VAD 配置问题。
💡 Main Points
- GPT-Realtime-2 将 GPT-5 级推理引入语音交互,上下文窗口扩大 4 倍至 128k 从 32k 扩展至 128k 的上下文窗口,使模型可支持近一小时的完整对话而无需截断,大幅提升长会话中的指令遵从能力与智能表现,是开发者呼声最高的功能之一。
- 「语音即操作」代表由强大工具调用能力驱动的全新工作流范式 GPT-Realtime-2 不再局限于简单语音问答,而是能够自主操作 UI、搜索库存、筛选数据集并更新状态——通过电商和产品分析看板的现场演示得到充分验证。
- 逐轮 VAD 控制为开发者提供精细的可靠性保障 开发者可在特定轮次禁用语音活动检测,确保模型完整输出关键内容(如法律免责声明)而不被打断,填补了生产环境中的关键可靠性缺口。
- Sierra 实测 GPT-Realtime-2 相比级联系统延迟降低 30%~200% P50 和 P90 的生产基准数据均显示显著提升。Sierra 强调,模型仍需配合健壮的智能体框架,以应对现实音频环境中的中断、口音和噪声问题。
- 思考模型在语音交互性能上实现了阶跃式提升 Sierra 语音研究团队表示,其榜单已被思考模型全面主导,Realtime 2 带来了显著更优的结果——标志着高质量语音智能体构建方式正在发生结构性转变。
💬 Key Quotes
- 这是我们最智能的语音模型,它将 GPT-5 级推理能力带入了语音交互
- 我们还扩大了上下文窗口——这是开发者呼声最高的需求,现已扩展 4 倍至 128k
- 我们将「语音即操作」视为一种全新的工作流范式,因为模型的工具调用能力已经足够强大
- 在我们的初步测试中,确实观察到了明显的延迟提升:与级联系统相比,P50 速度提升约 30%,P90 最高提升 200%
- 思考模型在语音对话模型领域实现了真正的阶跃式突破
📊 Article Meta
AI Screening:92
Featured:Yes
Source:OpenAI
Author:OpenAI
Category:人工智能
Language:英文
Read Time:2 min
Word Count:327
Tags:
GPT-Realtime-2, 语音智能体, 多模态 API, 工具调用, 实时翻译