分享
GPT-Realtime-2 语音模型发布:语音首次接入 GPT-5 推理能力
输入“/”快速插入内容
GPT-Realtime-2 语音模型发布:语音首次接入 GPT-5 推理能力
用户4242
用户4242
5月8日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/YZH3bja-...
小互 小互 小互AI
2026年5月8日 13:59 安徽
小互AI · 深度解读
GPT-Realtime-2 发布:语音首次接入 GPT-5 级推理,跑分超上代 15%
OpenAI一口气发布了三个实时语音模型:
GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper
,全部今日起在 Realtime API 开放。
其中GPT-Realtime-2 是其中的主角,这是 OpenAI
第一次把“GPT-5 级推理”塞进语音模型
,同时把上下文
从 32K 扩到 128K
,并且在不涨音频价格的前提下做完了这次升级。
•
GPT-Realtime-2:
首个具备 GPT-5 级推理能力的语音模型,能在对话中推理复杂请求、并行调工具、处理打断和纠错,上下文窗口从 32K 升到 128K。
•
GPT-Realtime-Translate:
实时语音翻译模型,支持 70+ 种输入语言、13 种输出语言,跟着说话人的节奏边听边译,能处理口音和专业词。
•
GPT-Realtime-Whisper:
流式语音转文字模型,边说边出字,专门给实时字幕、会议纪要、客服转写这类不能等的
OpenAI 这波更新瞄的是一件事:
语音不能再只是个一问一答的对话框,得变成边听边想、边调工具边干活的接口。
01
三个模型分别是什么
模型
干什么
怎么计费
GPT-Realtime-2
实时语音对话,带 GPT-5 级推理,可调推理强度
按 token,音频输入 32 / 输出 64 美元每 100 万
GPT-Realtime-Translate
实时语音转语音翻译,70+ 输入语言、13 输出语言
按音频时长,0.034 美元 / 分钟
GPT-Realtime-Whisper
流式语音转文字,边说边出转写
按音频时长,0.017 美元 / 分钟
三个模型都通过 Realtime API 调用,可以在 OpenAI Playground 直接试,免费 tier 暂不支持。
02
GPT-Realtime-2:把推理塞进语音
GPT-Realtime-2 是这次更新的主角,OpenAI 把它定位成
「 第一个具备 GPT-5 级推理能力的语音模型」 。
之前的语音 Agent 普遍卡在一个老问题上,能听清能回答,但只要任务复杂一点、链条长一点,就会答得磕磕绊绊。GPT-Realtime-2 想解决的就是这个,它要做的不是接电话的客服,而是一边听你说一边在脑子里走推理链路的实时协作者。
这一代的核心变化是引入了
可调推理强度
,从 minimal、low、medium、high 一路到 xhigh 五档。
简单请求走 low 保延迟,复杂请求拨到 high 让模型多想一会儿。
默认档位是 low
,意味着开箱即用拿到的是省钱省延迟的版本,跑分上的强模型得自己拨上去。
跑分:96.6% vs 81.4%
OpenAI 公布了两组对比数据,都是跟上一代 GPT-Realtime-1.5 比:
•
Big Bench Audio
(语音推理能力):GPT-Realtime-2 在 high 档拿到 96.6%,上一代 81.4%,提升 15.2 个百分点
•
Audio MultiChallenge
(多轮指令跟随):GPT-Realtime-2 在 xhigh 档拿到 48.5%,上一代 34.7%,提升 13.8 个百分点