OpenAI 继续给 AI Agent 上大菜:三个新语音模型,一个新平台!
OpenAI发布三个新的语音模型和一个新平台,包括gpt-4o-transcribe、gpt-4o-mini-transcribe、gpt-4o-mini-tts以及openai.fm体验平台。
OpenAI发布三个新的语音模型和一个新平台,包括gpt-4o-transcribe、gpt-4o-mini-transcribe、gpt-4o-mini-tts以及openai.fm体验平台。
OpenAI推出全新一代音频模型gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,大幅提高单词识别错误率与语言准确性。同时发布的新语音转文本模型在多个基准测试上超过whisper模型,在低资源语言上的表现尤其突出。不过中文场景的音频生成效果仍需改进。
OpenAI 发布三款新模型:语音转文本(STT)和文本转语音(TTS),以及一个调试工具网站 OpenAI.fm。STT 模型价格更优且性能更好;TTS 效果一般但可控性强;PlayGround 界面友好,支持代码导出功能。
2025年3月,OpenAI发布新一代音频模型API,包括改进的语音转文本和文本转语音模型。新模型在准确性和噪声消除方面表现出色,并提供更强的可控性定制选项。开发者可通过API和集成的Agent SDK轻松访问这些功能。
OpenAI发布全新一代音频模型,包括语音转文本和文本转语音功能。gpt-4o-transcribe单词错误率显著降低,gpt-4o-mini-tts支持可引导性合成。定价分别为每分钟0.006美元与0.015美元。