音频理解归档

新型轻量级音频模型问世！1.5B参数挑战 Whisper 与 Qwen2-Audio！

2025年5月2日8时作者开源星探

一款名为Aero-1-Audio的新型音频模型发布，参数仅有1.5B但性能出色，支持长音频处理、语音识别和音频理解任务。训练时间短且资源占用低，适用于语音助手、实时转写等场景。

2025年4月28日8时作者开源星探

Kimi-Audio 是一款由 Moonshot AI 开源的音频基础模型，基于 Qwen 2.5-7B 构建，支持 ASR、AQA、SER 等多种任务，具有高效流式生成和开源评估工具包等特性。

2025年3月17日11时作者量子位

小米大模型团队通过微调阿里Qwen2-Audio-7B模型，结合DeepSeek-R1的GRPO算法，在MMAU评测集上实现了64.5%的准确率，显著提升31%，接近人类专家水平。