首个开源「AI智能语音转文本模型」，质量超whisper，成本爆降。

Whisper的准确率，用过的都知道，传统的ASR有两个通病，错误率高，语义理解差。

最近新出的一些语音转文本模型都是基于大模型去做的了，对于语义理解有了巨大的提高，也就是转录的时候会基于上下文做一些调整。

新出的这些模型，也是参差不齐。

速度（成本）、准确率、支持语言等差别很大。

今天看到一个还不错的模型Voxtral，给大家推荐下，一共开源了两个型号，一个3B，一个24B。

纵坐标是错误率，越低越好；横坐标是价格。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

Voxtral 是由法国初创公司 Mistral AI开源的首个语音智能模型系列，包含 24B 参数的 Voxtral Small 和 3B 参数的 Voxtral Mini，可实现高精度长音频转录（30 分钟）、语义理解（40 分钟）、多语言支持，并能根据语音触发 API 或生成摘要；其成本不到同类闭源方案的一半，适用于企业生产环境部署。

DEMO

既然是AI语义理解，音频我就直接从一段完整的里面截取了一部分。

这是mini 3B模型

这是small 24B模型

里面有瑕疵，但如果加上上下文，准确率会更高。

对于转录，要说一点瑕疵没有，是不可能的，只能是尽可能的去找错误率低的。

功能特点

长音频处理能力强：支持最长 30 分钟转录、40 分钟语义处理，适合会议、播客等长音频场景。

内置问答和摘要：支持直接针对音频内容提问或生成结构化摘要，无需链接单独的 ASR 和语言模型

多语言支持：具备强大的多语言理解和转录能力，支持英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等语言。

低延迟、高效率：在保持高精度的同时，实现快速处理，适合实时语音分析任务。

文本处理能力强：保留了其语言模型主干 Mistral Small 3.1 的文本理解能力

性价比高：运行成本不到同类闭源产品的一半，适合企业大规模应用。

项目链接

mini 3B

https://huggingface.co/mistralai/Voxtral-Mini-3B-2507

small 24B

https://huggingface.co/mistralai/Voxtral-Small-24B-2507

试用链接

https://huggingface.co/spaces/MohamedRashad/Voxtral

关注「开源AI项目落地」公众号

（文：开源AI项目落地）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

发表评论 取消回复

发表评论取消回复