关注我,记得标星⭐️不迷路哦~
2025年3月20日,OpenAI 正式发布了其下一代音频模型 API,旨在赋能开发者构建更加强大、可定制和智能的语音助手. 此次发布包括全新的语音转文本(Speech-to-Text, STT)和文本转语音(Text-to-Speech, TTS)模型,标志着语音交互技术迈向了新的阶段.
全新的音频模型
OpenAI 推出了以下几款新的音频模型:
- 语音转文本模型:
- gpt-4o-transcribe:
一款高性能的语音转文本模型,基于最新的语音模型架构,经过海量高质量音频数据的训练,能够处理复杂的语音信号并准确地转换为文本. - gpt-4o-mini-transcribe:
作为 gpt-4o-transcribe
的小型化版本,在保持较高转录性能的同时,通过模型压缩技术减小了模型大小,提高了运行速度并降低了资源消耗,更适合在资源受限的设备上运行. - 文本转语音模型:
- gpt-4o-mini-tts:
一款具备更强可控性的新型文本转语音模型,开发者不仅可以指导模型说什么,还可以指导它如何说,从而实现更定制化的语音体验.
语音转文本模型的重大提升
新一代的语音转文本模型 gpt-4o-transcribe
和 gpt-4o-mini-transcribe
相较于 OpenAI 之前的 Whisper 模型,在多个方面都取得了显著的进步:
- 更高的准确性和可靠性:
这些新模型在准确性和可靠性上超越了现有解决方案,尤其是在涉及口音、嘈杂环境和语速变化等具有挑战性的场景中. 改进提高了转录的可靠性,使其特别适用于客户呼叫中心、会议记录转录等应用场景. - 更低的词错误率(WER):
gpt-4o-transcribe
在多个已建立的基准测试中展示了比现有 Whisper 模型更优的词错误率(WER)表现. 词错误率衡量语音识别模型的准确性,较低的 WER 表示更少的错误. - 更好的语言识别和覆盖:
这些模型能够更好地捕捉语音的细微差别,减少误识别,并提高转录的可靠性. 在 FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)等多语言语音基准测试中,新模型展现了更强的转录准确性和更广泛的语言覆盖. - 噪声消除和语义语音活动检测:
OpenAI 为语音转文本 API 增添了强大的 streaming 模式,并集成了噪声消除技术和语义语音活动检测器,进一步优化了用户体验. 噪声消除技术能有效过滤掉背景噪音,而语义语音活动检测器则可根据模型对用户说话结束的判断,对音频进行合理分块处理.
文本转语音模型的创新特性
全新的 gpt-4o-mini-tts
模型为开发者带来了前所未有的语音定制能力:
- 更强的可控性(Steerability):
开发者可以“指导”模型不仅说什么,还可以如何说,包括语音的语调、情感和风格. 这为从更具同理心和活力的客户服务语音到创意故事讲述中富有表现力的叙述,各种量身定制的应用成为可能. - 多样化的语音风格:
开发者可以通过指令控制语音的情绪和风格,例如兴奋、平静、鼓励、严肃、热闹等,这对于搭建不同业务场景的智能体非常有用. - 高质量的语音输出:
gpt-4o-mini-tts
模型采用了先进的语音合成技术,能够生成高质量、自然流畅的语音输出. 通过模拟人类的发声机制和语音特征,使合成语音听起来更加逼真.
为了方便开发者体验 gpt-4o-mini-tts
模型的定制能力,OpenAI 还专门创建了一个演示网站:https://www.openai.fm/. 开发者可以在该网站上尝试不同的预设声音和情绪,也可以自定义文本并选择不同的声音和情绪进行体验. 模型提供了多个可供调整的参数,如声音的活力、语速、标点使用和语气等.
需要注意的是,目前的文本转语音模型仅限于人工预设的声音.
技术创新
新一代音频模型的性能提升得益于多项技术创新:
- 基于 GPT-4o 和 GPT-4o-mini 架构:
这些模型构建于先进的 GPT-4o 和 GPT-4o-mini 架构之上. - 使用真实音频数据集进行预训练:
模型在专门的以音频为中心的数据集上进行了广泛的预训练,这对于优化模型性能至关重要. 这种有针对性的方法可以更深入地洞察语音的细微差别,并在与音频相关的任务中实现出色的性能. gpt-4o-transcribe
的训练数据量达到了前所未有的规模,涵盖了多种语言和方言. - 先进的蒸馏方法:
OpenAI 改进了蒸馏技术,从而可以将最大的音频模型的知识转移到更小、更高效的模型. 利用先进的自我对弈方法,蒸馏数据集有效地捕捉了真实的对话动态,复制了真实的用户-助手互动,有助于小型模型提供出色的对话质量和响应能力. - 强化学习范式:
对于语音转文本模型,OpenAI 集成了一个以强化学习(RL-heavy)为主的范式,这种方法显著提高了精度并减少了幻觉现象,使语音转文本解决方案在复杂的语音识别场景中具有极强的竞争力.
API 和 SDK 的可用性
这些新的音频模型现在已向所有开发者开放,可以通过 API 进行调用. OpenAI 还发布了与 Agents SDK 的集成,以简化语音智能体的开发过程. 升级后的 Agent SDK 深度整合了最新的语音转文本和文本转语音模型,并支持双向流式传输,使得构建语音智能体更加便捷. SDK 采用了模块化设计,将语音转文本、文本处理和文本转语音等功能模块化,提高了开发效率和系统的可扩展性. 对于需要构建低延迟的语音到语音体验的开发者,OpenAI 建议使用 Realtime API 中的语音到语音模型.
开发者可以通过访问 https://platform.openai.com/docs/guides/audio 获取 API 文档和更多构建信息.
应用场景展望
新一代音频模型的发布将极大地拓展 AI 的应用场景,助力开发者构建各种创新的语音应用:
- 更强大的语音助手:
构建能够进行更自然、更深层次语音交互的智能语音助手. - 智能客服:
开发更具同理心和动态的客户服务语音,提升用户体验. - 内容创作:
实现更具表现力的叙述,为创意故事讲述带来新的可能性. - 教育领域:
开发能够以鼓励性语气激励学生的智能体. - 会议和通话记录:
提供更准确、更可靠的会议和通话内容转录服务. - 无障碍应用:
帮助听力或语言障碍人士进行更便捷的交流.
价格信息
OpenAI 为新的音频模型提供了具有竞争力的定价:
- gpt-4o-transcribe:
每分钟 0.006 美元. - gpt-4o-mini-transcribe:
每分钟 0.003 美元. - gpt-4o-mini-tts:
每分钟 0.015 美元.
gpt-4o-transcribe
的价格与 Whisper 模型相同,而 gpt-4o-mini-transcribe
的价格则便宜一半. gpt-4o-mini-tts
的价格也相对较低.
OpenAI 计划继续投资于提高其音频模型的智能性和准确性,并探索允许开发者以符合安全标准的方式引入自定义声音的方法,以构建更加个性化的体验. 此外,OpenAI 也在积极与政策制定者、研究人员、开发者和创意人士就合成语音可能带来的挑战和机遇进行对话. 未来,OpenAI 还将投资于包括视频在内的其他模态,以支持开发者构建多模态的智能体体验.
链接地址:https://openai.com/index/introducing-our-next-generation-audio-models/
sdk:https://github.com/openai/openai-agents-python
(文:每日AI新工具)