语音模型归档

语音转录模型

2025年7月19日16时作者路过银河AI

最近开源大模型Kimi k2占据首位；Voxtral Small作为声音模型在huggingface上表现突出。它能够进行长格式转录和理解，支持多种语言，并能直接通过语音调用功能。此外，Voxtral还提供了两种版本：24B变体用于生产规模应用，3B变体适用于本地和边缘部署。

2025年5月16日8时作者开源星探

VITA-Audio是一款由VITA团队开源的端到端语音模型，首次生成音频仅需53毫秒，比同类7B参数模型快3-5倍。它具有超低延迟、首向前向传播生成等优势，并支持多种任务。

2025年4月27日14时作者老刘说NLP

今日记录了MCP相关进展及语音大模型和推理大模型的最新情况，包括Kimi开源语音模型、关于推理能力实证分析的研究，以及Model Context Protocol (MCP) 的综述等内容。