OpenAI 又出大动作:实时语音API全面开放,声音和真人几乎无差别
OpenAI 正式开放 Realtime API,集成了其最先进的语音对话模型 gpt-realtime,并带来了一系列新功能,用于打造可直接投入生产的语音智能体
新版 gpt-realtime 模型(gpt-realtime-2025-08-28) 在理解复杂指令、精准调用工具、生成更自然和富有表现力的语音方面都有显著提升。定价为:每百万音频输入 token 收费 32 美元,每百万音频输出 token 收费 64 美元,比上一代便宜 20%
Realtime API 现在支持 远程 MCP 服务器、图像输入,以及通过会话发起协议(SIP)的电话功能,让语音智能体能使用更多工具与上下文,功能更强大
OpenAI 推出了两种全新声音 Cedar 和 Marin,仅在 Realtime API 中可用,并且对原有的八种声音也进行了更新
在 Big Bench Audio 推理能力评测中,gpt-realtime 的准确率达 82.8%,相比 2024 年 12 月发布的前一代模型(65.6%)有明显提升
OpenAI 还发布了 gpt-audio(gpt-audio-2025-08-28),这是首个面向 Chat Completions REST API 全面开放的音频模型,定价为:每百万音频输入 token 收费 40 美元,每百万音频输出 token 收费 80 美元
延伸阅读:
推荐系统真正「懂你」:快手团队在NeurIPS 2025提出新成果TagCF
每天,推荐系统都在捕捉我们的兴趣与偏好。从刷过的视频到停留的直播间,算法总是聚焦在「内容」的理解上,推断用户喜欢哪类视频...
院士选举:如何保障学术公正,回归纯粹的荣誉属性
图源:Unsplash / Element5 Digital今年新当选的 144 位院士名单公布后,围绕院士选举的评审方...
华为Mate 80 Pro Max手机备件价格公布,屏幕单体留件价1399元
IT之家 11 月 27 日消息,华为 Mate 80 Pro Max 手机备件价格现已公布,更换屏幕单体的留件价是 1...
TPU算力狂热席卷而来! 三大关键词贯穿新一轮AI投资热潮:ASIC、光互连与存储
智通财经APP获悉,随着美国科技巨擘谷歌在上周重磅推出Gemini3 AI应用生态之后,这一最前沿AI应用软件随即风靡全...
5亿热钱砸向清华AI Infra明星:最大化算力效能筑造智能体基建
henry 发自 凹非寺量子位 | 公众号成立两年半,再添近5亿元A+轮融资——截至目前,无问芯穹已累计吸金近15亿,成...
