首个开源「AI智能语音转文本模型」,质量超whisper,成本爆降。
Voxtral 是由 Mistral AI 开源的首个语音智能模型系列,包含 24B 参数和 3B 参数的 Voxtral Small 和 Voxtral Mini。它支持长音频转录、语义理解以及多语言处理,并能根据语音触发 API 或生成摘要。成本不到同类闭源方案的一半,适用于企业生产环境部署。
Voxtral 是由 Mistral AI 开源的首个语音智能模型系列,包含 24B 参数和 3B 参数的 Voxtral Small 和 Voxtral Mini。它支持长音频转录、语义理解以及多语言处理,并能根据语音触发 API 或生成摘要。成本不到同类闭源方案的一半,适用于企业生产环境部署。
Gemini 2.5 在 I/O 大会上展示了原生音频对话和生成能力,包括自然对话、风格控制、工具集成、多语言性等特性,提升了实时交互体验,并支持多种语音输出形式。
simple-subtitling 是一个生成包含演讲者ID和时间戳的音频字幕项目,支持多种语言,通过音频样本指定演讲者身份,并使用先进算法实现高精度语音识别和聚类。
新的 Firefly Web 应用程序提供了一套由 Firefly 系列模型支持的工具,直接集成到 Adobe 应用程序中,新增了语音和视频翻译功能。
小红书宣布翻译功能正式上线,支持多语言和网络用语一键翻译。新增的搜索结果图片翻译和优先英文筛选能力方便非中国内地用户。用户点赞效率提升和即时获取日本网友对新番吐槽的功能。不过,中英文混合笔记或图文结合图片外文情况无法直接翻译。
Languine是一款AI驱动的翻译助手,支持100多种语言,提供智能检测、高效集成和高质量翻译等功能,适用于应用国际化、动态内容更新及团队协作场景。