新纪录!小米又抛出一个开源模型,在22个公开评测集上实现SOTA,主打声音理解

小米发布MiDashengLM-7B音频模型,通过统一理解语音、环境声与音乐的跨领域能力提高用户场景理解的泛化性。该模型基于公开数据集进行预训练和有监督微调,展示了在多项关键任务上的优势,并支持在边缘设备上部署。

开源语音转文字神器!浏览器本地运行,无需上传,Whisper驱动,隐私+实时两不误!

Say 是一款基于Whisper和Transformers.js的开源浏览器内语音转文字工具,提供实时转录、富文本编辑等功能,并完全本地运行保护隐私。它支持多语言识别、实时波形显示、本地存储等特性。

3.4k星星!开源超低延迟实时语音转文本SST,支持语音活动检测、唤醒词激活。

今天介绍的是RealtimeSTT项目,它是基于Whisper的基础上做的SST功能。其主要特点是流式输出、实时纠错机制和语音活动检测等功能,适用于需要快速精准转换的应用场景。