首个开源「AI智能语音转文本模型」,质量超whisper,成本爆降。

Whisper的准确率,用过的都知道,传统的ASR有两个通病,错误率高,语义理解差。


最近新出的一些语音转文本模型都是基于大模型去做的了,对于语义理解有了巨大的提高,也就是转录的时候会基于上下文做一些调整。


新出的这些模型,也是参差不齐。


速度(成本)、准确率、支持语言等差别很大。


今天看到一个还不错的模型Voxtral,给大家推荐下,一共开源了两个型号,一个3B,一个24B。



纵坐标是错误率,越低越好;横坐标是价格。


扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)


项目简介


Voxtral 是由法国初创公司 Mistral AI开源的首个语音智能模型系列,包含 24B 参数的 Voxtral Small 和 3B 参数的 Voxtral Mini,可实现高精度长音频转录(30 分钟)、语义理解(40 分钟)、多语言支持,并能根据语音触发 API 或生成摘要;其成本不到同类闭源方案的一半,适用于企业生产环境部署。


DEMO


既然是AI语义理解,音频我就直接从一段完整的里面截取了一部分。



这是mini 3B模型


这是small 24B模型


里面有瑕疵,但如果加上上下文,准确率会更高。


对于转录,要说一点瑕疵没有,是不可能的,只能是尽可能的去找错误率低的。


功能特点


长音频处理能力强:支持最长 30 分钟转录、40 分钟语义处理,适合会议、播客等长音频场景。


内置问答和摘要:支持直接针对音频内容提问或生成结构化摘要,无需链接单独的 ASR 和语言模型


多语言支持:具备强大的多语言理解和转录能力,支持英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等语言。



低延迟、高效率:在保持高精度的同时,实现快速处理,适合实时语音分析任务。



文本处理能力强:保留了其语言模型主干 Mistral Small 3.1 的文本理解能力



性价比高:运行成本不到同类闭源产品的一半,适合企业大规模应用。


项目链接


mini 3B


https://huggingface.co/mistralai/Voxtral-Mini-3B-2507


small 24B


https://huggingface.co/mistralai/Voxtral-Small-24B-2507


试用链接


https://huggingface.co/spaces/MohamedRashad/Voxtral


 关注「开源AI项目落地」公众号

(文:开源AI项目落地)

发表评论