OpenAI 发布新一代语音模型了

新一代Whisper V3展示了惊人的识别准确率和克隆音色能力,开启了语音交互的新篇章。技术突破包括突破噪声环境、语种壁垒及固定模板的限制。开发者通过定制化TTS系统提升了AI外呼转化率,并在教育科技和医疗领域产生了深远影响。声音数据成为新的数字基建,但也引发了一系列伦理和技术挑战。

OpenAI最新音频模型一手实测!可癫可御可定制,中文有点翻车

OpenAI推出全新一代音频模型gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,大幅提高单词识别错误率与语言准确性。同时发布的新语音转文本模型在多个基准测试上超过whisper模型,在低资源语言上的表现尤其突出。不过中文场景的音频生成效果仍需改进。

语音转文本,文本转语音:OpenAI 发布了 2 套新模型,1 个新网站

OpenAI 发布三款新模型:语音转文本(STT)和文本转语音(TTS),以及一个调试工具网站 OpenAI.fm。STT 模型价格更优且性能更好;TTS 效果一般但可控性强;PlayGround 界面友好,支持代码导出功能。

OpenAI 发布新一代音频模型 API:打造更智能的语音助手

2025年3月,OpenAI发布新一代音频模型API,包括改进的语音转文本和文本转语音模型。新模型在准确性和噪声消除方面表现出色,并提供更强的可控性定制选项。开发者可通过API和集成的Agent SDK轻松访问这些功能。