首个开源「AI智能语音转文本模型」,质量超whisper,成本爆降。
Voxtral 是由 Mistral AI 开源的首个语音智能模型系列,包含 24B 参数和 3B 参数的 Voxtral Small 和 Voxtral Mini。它支持长音频转录、语义理解以及多语言处理,并能根据语音触发 API 或生成摘要。成本不到同类闭源方案的一半,适用于企业生产环境部署。
Voxtral 是由 Mistral AI 开源的首个语音智能模型系列,包含 24B 参数和 3B 参数的 Voxtral Small 和 Voxtral Mini。它支持长音频转录、语义理解以及多语言处理,并能根据语音触发 API 或生成摘要。成本不到同类闭源方案的一半,适用于企业生产环境部署。
最近开源大模型Kimi k2占据首位;Voxtral Small作为声音模型在huggingface上表现突出。它能够进行长格式转录和理解,支持多种语言,并能直接通过语音调用功能。此外,Voxtral还提供了两种版本:24B变体用于生产规模应用,3B变体适用于本地和边缘部署。