OpenAI 发布新一代语音模型了
新一代Whisper V3展示了惊人的识别准确率和克隆音色能力,开启了语音交互的新篇章。技术突破包括突破噪声环境、语种壁垒及固定模板的限制。开发者通过定制化TTS系统提升了AI外呼转化率,并在教育科技和医疗领域产生了深远影响。声音数据成为新的数字基建,但也引发了一系列伦理和技术挑战。
新一代Whisper V3展示了惊人的识别准确率和克隆音色能力,开启了语音交互的新篇章。技术突破包括突破噪声环境、语种壁垒及固定模板的限制。开发者通过定制化TTS系统提升了AI外呼转化率,并在教育科技和医疗领域产生了深远影响。声音数据成为新的数字基建,但也引发了一系列伦理和技术挑战。
OpenAI推出全新一代音频模型gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,大幅提高单词识别错误率与语言准确性。同时发布的新语音转文本模型在多个基准测试上超过whisper模型,在低资源语言上的表现尤其突出。不过中文场景的音频生成效果仍需改进。
OpenAI发布三款新模型:gpt-4o-mini-tts、gpt-4o-transcribe和gpt-4o-mini-transcribe。前者在语音转文字方面性能优越;后者允许用户指定说话内容及方式,两款模型已被用于客服代理。
OpenAI 发布三款新模型:语音转文本(STT)和文本转语音(TTS),以及一个调试工具网站 OpenAI.fm。STT 模型价格更优且性能更好;TTS 效果一般但可控性强;PlayGround 界面友好,支持代码导出功能。
美国外卖巨头DoorDash限制OpenAI的AI代理访问平台,担忧其可能绕过原生应用界面直接下订单。这威胁到传统APP平台推广、交叉销售和用户体验控制能力,以及用户数据主权。
2025年3月,OpenAI发布新一代音频模型API,包括改进的语音转文本和文本转语音模型。新模型在准确性和噪声消除方面表现出色,并提供更强的可控性定制选项。开发者可通过API和集成的Agent SDK轻松访问这些功能。
OpenAI发布全新一代音频模型,包括语音转文本和文本转语音功能。gpt-4o-transcribe单词错误率显著降低,gpt-4o-mini-tts支持可引导性合成。定价分别为每分钟0.006美元与0.015美元。