跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

音频理解

新型轻量级音频模型问世!1.5B参数挑战 Whisper 与 Qwen2-Audio!

2025年5月2日8时 作者 开源星探

一款名为Aero-1-Audio的新型音频模型发布,参数仅有1.5B但性能出色,支持长音频处理、语音识别和音频理解任务。训练时间短且资源占用低,适用于语音助手、实时转写等场景。

分类 开源 标签 15分钟、 Aero-1-Audio、 H100 GPU、 LMMs-Lab、 语音识别、 音频理解 发表评论

月之暗面最新开源模型!Kimi-Audio:革新多模态音频处理,统一音频理解、生成与对话!

2025年4月28日8时 作者 开源星探

Kimi-Audio 是一款由 Moonshot AI 开源的音频基础模型,基于 Qwen 2.5-7B 构建,支持 ASR、AQA、SER 等多种任务,具有高效流式生成和开源评估工具包等特性。

分类 开源 标签 1300万小时、 Kimi-Audio、 Qwen、 WER、 语音对话、 音频理解 发表评论

迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单

2025年3月17日11时 作者 量子位

小米大模型团队通过微调阿里Qwen2-Audio-7B模型,结合DeepSeek-R1的GRPO算法,在MMAU评测集上实现了64.5%的准确率,显著提升31%,接近人类专家水平。

分类 资讯 标签 7B参数模型、 GRPO算法、 MMAU评测基准、 小米、 强化学习、 音频理解 发表评论

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 本地安全AI革命!开源Klee桌面助理发布:离线RAG+加密笔记,机密数据永不触网!
  • 超越DeepSeek和Kimi K2,史上最强开源大模型发布
  • 特招33名AI工程从业者升名校免试硕士!即刻入学!在职人员优先!
  • 投入2000万!年产7000套!阿童木机器人万平基地正式启用!
  • 人形机器人的下半场!众擎机器人为何屡成资本的“香饽饽”?

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×