OpenAI 又出大动作:实时语音API全面开放,声音和真人几乎无差别
OpenAI 正式开放 Realtime API,集成了其最先进的语音对话模型 gpt-realtime,并带来了一系列新功能,用于打造可直接投入生产的语音智能体
新版 gpt-realtime 模型(gpt-realtime-2025-08-28) 在理解复杂指令、精准调用工具、生成更自然和富有表现力的语音方面都有显著提升。定价为:每百万音频输入 token 收费 32 美元,每百万音频输出 token 收费 64 美元,比上一代便宜 20%
Realtime API 现在支持 远程 MCP 服务器、图像输入,以及通过会话发起协议(SIP)的电话功能,让语音智能体能使用更多工具与上下文,功能更强大
OpenAI 推出了两种全新声音 Cedar 和 Marin,仅在 Realtime API 中可用,并且对原有的八种声音也进行了更新
在 Big Bench Audio 推理能力评测中,gpt-realtime 的准确率达 82.8%,相比 2024 年 12 月发布的前一代模型(65.6%)有明显提升
OpenAI 还发布了 gpt-audio(gpt-audio-2025-08-28),这是首个面向 Chat Completions REST API 全面开放的音频模型,定价为:每百万音频输入 token 收费 40 美元,每百万音频输出 token 收费 80 美元
延伸阅读:
维基的转身:当开放知识遇上AI付费时代
来源:环球网【环球网科技综合报道】在成立25周年之际,维基媒体基金会于1月15日官宣合作,与亚马逊、元宇宙平台公司、微软...
iPhone 17e曝光:灵动岛加持却暗藏取舍,平价旗舰的平衡术
来源:环球网【环球网科技综合报道】1月16日消息,外媒MacRumors日前披露了iPhone 17e的核心配置信息,这...
iPhone 18 Pro前瞻:技术革新引领智能手机新纪元
来源:环球网【环球网科技综合报道】距发布尚有8个月,iPhone 18 Pro系列已凭多项重磅升级传闻引发热议。1月16...
中国天眼揭开宇宙谜团:快速射电暴起源迎来突破性发现
这是来自遥远宇宙的问候——2007年,人类首次发现快速射电暴。那时起,一个谜题始终待解:这个宇宙中最神秘的射电爆发现象之...
宇宙深处的电波密语:“中国天眼”破译快速射电暴起源之谜
这是1月16日拍摄的“中国天眼”(无人机照片,维护保养期间拍摄)。新华社记者 欧东衢 摄 新华社贵阳1月16日电(记者...
