OpenAI 又出大动作:实时语音API全面开放,声音和真人几乎无差别

OpenAI 正式开放 Realtime API,集成了其最先进的语音对话模型 gpt-realtime,并带来了一系列新功能,用于打造可直接投入生产的语音智能体

新版 gpt-realtime 模型(gpt-realtime-2025-08-28) 在理解复杂指令、精准调用工具、生成更自然和富有表现力的语音方面都有显著提升。定价为:每百万音频输入 token 收费 32 美元,每百万音频输出 token 收费 64 美元,比上一代便宜 20%

Realtime API 现在支持 远程 MCP 服务器、图像输入,以及通过会话发起协议(SIP)的电话功能,让语音智能体能使用更多工具与上下文,功能更强大

OpenAI 推出了两种全新声音 Cedar 和 Marin,仅在 Realtime API 中可用,并且对原有的八种声音也进行了更新

在 Big Bench Audio 推理能力评测中,gpt-realtime 的准确率达 82.8%,相比 2024 年 12 月发布的前一代模型(65.6%)有明显提升

OpenAI 还发布了 gpt-audio(gpt-audio-2025-08-28),这是首个面向 Chat Completions REST API 全面开放的音频模型,定价为:每百万音频输入 token 收费 40 美元,每百万音频输出 token 收费 80 美元

暂无介绍....

延伸阅读:

比特币价格跌破7万美元

新华社纽约2月5日电 由于投资者悲观预期和国际金融市场抛售持续,5日早间,加密货币价格进一步显著下跌,比特币价格自202...

娱乐早知道
2026年2月6日
长安汽车全球炼车季硬核开幕 钠锂双星开启新能源新格局

2026年2月5日,长安汽车(000625.SZ)在内蒙古牙克石举办天枢智能新安全成果发布暨钠电战略全球发布会,发布天枢...

八卦小灵通
2026年2月6日
苹果iPhone Fold搭载顶级薄膜材料:耐用度直接拉满

快科技2月6日消息,为了在折叠屏市场实现差异化,苹果正为其首款折叠手机iPhone Fold评估一种韧性更强的薄膜技术。...

娱乐早知道
2026年2月6日
新上海人的故事 ∣ 曾宪宇:一个航天人的“常态”

TELL+DREAM是TELL公众演讲会与虹梅街道、漕河泾开发区共同举办的演讲活动,全方位展现了各行各业劳动者的风采。在...

摸鱼小能手
2026年2月6日
AI巨头中“烧钱最猛”!亚马逊(AMZN.US)盈利引担忧:今年支出指引2000亿美元远超预期,AWS增利不如意

智通财经APP获悉,亚马逊(AMZN.US)公布了第四财季业绩。Q4营收同比增长14%至2134亿美元,高于市场普遍预期...

娱乐早知道
2026年2月6日