新型轻量级音频模型问世!1.5B参数挑战 Whisper 与 Qwen2-Audio!
一款名为Aero-1-Audio的新型音频模型发布,参数仅有1.5B但性能出色,支持长音频处理、语音识别和音频理解任务。训练时间短且资源占用低,适用于语音助手、实时转写等场景。
一款名为Aero-1-Audio的新型音频模型发布,参数仅有1.5B但性能出色,支持长音频处理、语音识别和音频理解任务。训练时间短且资源占用低,适用于语音助手、实时转写等场景。
Kimi-Audio 是一款由 Moonshot AI 开源的音频基础模型,基于 Qwen 2.5-7B 构建,支持 ASR、AQA、SER 等多种任务,具有高效流式生成和开源评估工具包等特性。
小米大模型团队通过微调阿里Qwen2-Audio-7B模型,结合DeepSeek-R1的GRPO算法,在MMAU评测集上实现了64.5%的准确率,显著提升31%,接近人类专家水平。