月之暗面最新开源模型!Kimi-Audio:革新多模态音频处理,统一音频理解、生成与对话!
Kimi-Audio 是一款由 Moonshot AI 开源的音频基础模型,基于 Qwen 2.5-7B 构建,支持 ASR、AQA、SER 等多种任务,具有高效流式生成和开源评估工具包等特性。
Kimi-Audio 是一款由 Moonshot AI 开源的音频基础模型,基于 Qwen 2.5-7B 构建,支持 ASR、AQA、SER 等多种任务,具有高效流式生成和开源评估工具包等特性。
小米大模型团队通过微调阿里Qwen2-Audio-7B模型,结合DeepSeek-R1的GRPO算法,在MMAU评测集上实现了64.5%的准确率,显著提升31%,接近人类专家水平。