法国人工智能初创公司 Mistral 刚刚推出了其最新模型 Voxtral,这是一款开源的音频模型,旨在为企业提供一种价格实惠且功能强大的语音智能解决方案。Voxtral 是 Mistral 的首个音频模型系列,被定位为 B2B 服务,其开源代码让开发者在部署上比类似高端封闭模型拥有更多控制权。这一创新举措不仅为企业提供了更多的选择,还推动了开源人工智能模型的发展。

Voxtral 目前有两种变体:Voxtral Small 和 Voxtral Mini。Voxtral Mini 是较便宜的选项,而 Voxtral Small 是高端版本。这两种模型都具备一系列令人印象深刻的特性,包括长文本上下文(32k token 上下文长度)和内置问答功能,且它们是原生多语言的。语音提示可以触发后端功能、工作流或 API 调用中的操作。这些特性使得 Voxtral 不仅能够处理复杂的语音指令,还能在多种语言环境中无缝工作,支持包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语在内的多种语言。

Mistral 的官方公告强调了 Voxtral 的成本效益:“对于成本敏感的用例,Voxtral Mini Transcribe 的性能优于 OpenAI Whisper,且价格不到其一半。对于高端用例,Voxtral Small 的性能与 ElevenLabs Scribe 相当,同样价格不到其一半。” 这表明,Voxtral 不仅在性能上与市场上的高端产品相当,而且在价格上更具竞争力,为企业提供了一种经济实惠的替代方案。
Voxtral 的推出标志着 Mistral 在挑战大型语言模型行业巨头方面的又一重要步骤。早在 2024 年 11 月,Mistral 就推出了新的图像生成和网络搜索功能,显然是为了与 ChatGPT 竞争。如今,Voxtral 模型明确地向 Gemini 2.5 Flash 发起了挑战。官方公告甚至包括一张图表,将两款 Voxtral 模型与 Gemini 2.5 Flash 以及两款 OpenAI 工具——Whisper large-v3 和 GPT-4o mini Transcribe——并列比较。根据 Mistral 的分析,Voxtral Mini 的词错误率与 Gemini 2.5 Flash 相当,但成本要低得多,而 Voxtral Small 则在降低错误率方面优于 Gemini 竞争对手,尽管其价格相对较高。

Voxtral 的多语言能力和国际化的解决方案使其成为国际企业和受众的理想选择。随着 2025 年人工智能的热度持续升温,Mistral 希望作为有吸引力的中端选项保持在行业前列。微软的投资也将为 Mistral 提供有力支持:这家对人工智能需求旺盛的科技巨头已向 Mistral 提供了 1500 万欧元(约合 1600 万美元)的资金,用于一项多年协议,将 Mistral Large 引入其云计算平台 Azure。
Voxtral 的定价起始于每分钟 0.001 美元的 API 调用,尽管用户也可以在 Hugging Face 上免费下载该版本。这一灵活的定价策略使得 Voxtral 既适合预算有限的小型企业,也能满足对性能有较高要求的大型企业。用户可以通过在 Hugging Face 上下载 API 或在 Mistral 的聊天机器人 Le Chat 中测试模型来免费试用 Voxtral。这种开放的试用方式进一步降低了企业尝试和采用 Voxtral 的门槛。
此次发布是在 Mistral 宣布 Magistral 一个月后进行的,Magistral 是该公司首个推理模型系列,能够逐步解决问题,从而提高可靠性。Mistral 作为欧洲顶尖人工智能公司之一,以其推动开源人工智能模型的倡导而闻名。本月早些时候,TechCrunch 报道称,该公司正在与阿布扎比的 MGX 基金等投资者就高达 10 亿美元的股权融资进行谈判。这表明,Mistral 不仅在技术创新上取得了显著进展,还在商业扩展和资金筹集方面展现出了强大的潜力。
随着人工智能系统的能力不断增强,语音正迅速成为我们与机器交流的默认方式。Mistral 的 Voxtral 模型的推出,不仅为企业提供了一种新的、经济实惠的语音智能解决方案,还推动了整个行业向更加开放和创新的方向发展。
(文:AI音频时代)