音频模型归档

新纪录！小米又抛出一个开源模型，在22个公开评测集上实现SOTA，主打声音理解

2025年8月4日23时作者头部科技

小米发布MiDashengLM-7B音频模型，通过统一理解语音、环境声与音乐的跨领域能力提高用户场景理解的泛化性。该模型基于公开数据集进行预训练和有监督微调，展示了在多项关键任务上的优势，并支持在边缘设备上部署。

2025年5月6日14时作者小兵的AI视界

传统的音频处理模型往往面临参数庞大、计算资源消耗高、难以实时处理长音频等问题。为了解决这些挑战，
L

2025年3月21日11时作者机器之心

OpenAI 发布了新的音频模型，实现了语音转文本技术的重大进步，这些模型改进了单词错误率，并在多个既定基准中表现最佳。

2025年3月21日8时作者 AI寒武纪

OpenAI发布了三种新的先进音频模型：两款语音转文本模型表现优于Whisper，新TTS模型可教AI说话。为了让开发者构建强大的‘语音智能体’，OpenAI推出了三项重要功能：全新语音转文本模型、文本转语音模型和升级版Agent SDK。

2025年2月18日12时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，