产品帮助中心
欢迎来到简鹿技术支持中心,我们可以为您提供哪些帮助?

OpenAI 连发三款实时音频模型,打造下一代语音智能体

时间:2026-05-08 作者:小鹿 来源:简鹿办公
简鹿人声分离
官方正版
纯净安全
软件评分:
简鹿人声分离是一款高效的音频分离软件,能一键批量从音频或视频中分离出高质量的人声和伴奏,并支持视频降噪和乐器声提取,满足不同环境下的专业音频处理工具。
Win下载 Mac下载

根据简鹿办公了解,目前 OpenAI 面向开发者推出三款全新实时音频模型,开发者可通过其 API 搭建语音类应用与智能代理。三款新模型分别为 GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper,可支持更自然的语音交互、实时翻译以及低延迟语音转文字功能。

GPT-Realtime-2

本次发布的核心模型为 GPT-Realtime-2,专为实时语音交互打造。该模型能够理解用户需求、调用工具、应对语句修正,并以自然的方式延续对话。它为语音智能代理新增了以下能力:


前置应答语:执行任务前可说出简短过渡语,例如 “我帮你查一下”。

并行工具调用:可同时调用多项工具,并实时向用户同步进度。

故障恢复能力升级:出现异常时会给出合理回应,而非静默失效。

更长上下文窗口:上下文长度从 32 万令牌提升至 128 万令牌。

专业领域理解优化:更擅长记忆专业术语、专有名词及医疗相关词汇。

语气风格调控:可根据场景自主调整说话风格。

推理强度可调:开发者可选择极低、低、中、高、超高五个推理等级。


基准测试成绩直观体现了模型的性能提升:推理等级设为高的 GPT-Realtime-2 在音频基准测试 Big Bench Audio 中得分达 96.6%,而前代 GPT-Realtime-1.5 仅为 81.4%;在音频多任务指令遵循测试 Audio MultiChallenge 中,超高推理等级的 GPT-Realtime-2 得分 48.5%,远超前代的 34.7%。

GPT-Realtime-Translate

全新实时翻译模型专为多语言实时语音场景设计,支持70 余种输入语言的语音,翻译输出为13 种语言。OpenAI 表示,该模型可同步跟进说话者语速、精准保留原意,即便用户切换话题语境、使用方言口音或专业领域词汇,依旧能稳定翻译。

GPT-Realtime-Whisper

全新流式转录模型,主打低延迟语音转文字。支持边说话边实时转写音频,适用于实时字幕、会议纪要、课堂文稿记录等场景。


三款模型现已全部上线实时 API 服务:


GPT-Realtime-2:音频输入令牌每百万 32 美元,缓存输入令牌每百万 0.40 美元,音频输出令牌每百万 64 美元;

GPT-Realtime-Translate:每分钟 0.034 美元;

GPT-Realtime-Whisper:每分钟 0.017 美元。


开发者可在 OpenAI 调试平台体验全新实时语音模型。面向普通用户,OpenAI 仍在持续升级 ChatGPT 的语音交互体验。

热门教程
格式转换工厂 音频格式转换器
办公软件,就选简鹿 简便、快捷、高效

客户服务

帮助中心

关注我们

百家号 搜狐号 抖音号 CSDN B站平台
QQ客服
QQ:3236169202 复制
简鹿办公QQ客服二维码
微信客服
微信:jianlu365 复制
简鹿办公微信公众号
回到顶部