GPT-Realtime-2 语音模型发布：语音首次接入 GPT-5 推理能力

用户4242

5月8日修改

小互小互小互AI2026年5月8日 13:59 安徽

小互AI · 深度解读

GPT-Realtime-2 发布：语音首次接入 GPT-5 级推理，跑分超上代 15%​

OpenAI一口气发布了三个实时语音模型： GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper ，全部今日起在 Realtime API 开放。​

其中GPT-Realtime-2 是其中的主角，这是 OpenAI 第一次把“GPT-5 级推理”塞进语音模型 ，同时把上下文 从 32K 扩到 128K ，并且在不涨音频价格的前提下做完了这次升级。​

•
GPT-Realtime-2： 首个具备 GPT-5 级推理能力的语音模型，能在对话中推理复杂请求、并行调工具、处理打断和纠错，上下文窗口从 32K 升到 128K。​

•
GPT-Realtime-Translate： 实时语音翻译模型，支持 70+ 种输入语言、13 种输出语言，跟着说话人的节奏边听边译，能处理口音和专业词。​

•
GPT-Realtime-Whisper： 流式语音转文字模型，边说边出字，专门给实时字幕、会议纪要、客服转写这类不能等的​

OpenAI 这波更新瞄的是一件事： 语音不能再只是个一问一答的对话框，得变成边听边想、边调工具边干活的接口。​

三个模型分别是什么

三个模型都通过 Realtime API 调用，可以在 OpenAI Playground 直接试，免费 tier 暂不支持。​

GPT-Realtime-2：把推理塞进语音

GPT-Realtime-2 是这次更新的主角，OpenAI 把它定位成 「 第一个具备 GPT-5 级推理能力的语音模型」 。​

之前的语音 Agent 普遍卡在一个老问题上，能听清能回答，但只要任务复杂一点、链条长一点，就会答得磕磕绊绊。GPT-Realtime-2 想解决的就是这个，它要做的不是接电话的客服，而是一边听你说一边在脑子里走推理链路的实时协作者。​

这一代的核心变化是引入了 可调推理强度 ，从 minimal、low、medium、high 一路到 xhigh 五档。​

简单请求走 low 保延迟，复杂请求拨到 high 让模型多想一会儿。 默认档位是 low ，意味着开箱即用拿到的是省钱省延迟的版本，跑分上的强模型得自己拨上去。​

跑分：96.6% vs 81.4%

OpenAI 公布了两组对比数据，都是跟上一代 GPT-Realtime-1.5 比：

• Big Bench Audio （语音推理能力）：GPT-Realtime-2 在 high 档拿到 96.6%，上一代 81.4%，提升 15.2 个百分点​

• Audio MultiChallenge （多轮指令跟随）：GPT-Realtime-2 在 xhigh 档拿到 48.5%，上一代 34.7%，提升 13.8 个百分点​

GPT-Realtime-2 语音模型发布：语音首次接入 GPT-5 推理能力​