新纪录!小米又抛出一个开源模型,在22个公开评测集上实现SOTA,主打声音理解
小米发布MiDashengLM-7B音频模型,通过统一理解语音、环境声与音乐的跨领域能力提高用户场景理解的泛化性。该模型基于公开数据集进行预训练和有监督微调,展示了在多项关键任务上的优势,并支持在边缘设备上部署。
小米发布MiDashengLM-7B音频模型,通过统一理解语音、环境声与音乐的跨领域能力提高用户场景理解的泛化性。该模型基于公开数据集进行预训练和有监督微调,展示了在多项关键任务上的优势,并支持在边缘设备上部署。
Say 是一款基于Whisper和Transformers.js的开源浏览器内语音转文字工具,提供实时转录、富文本编辑等功能,并完全本地运行保护隐私。它支持多语言识别、实时波形显示、本地存储等特性。
Krillin AI 是一款全能型音视频本地化与增强解决方案,支持横竖屏格式输出,一键启动、精准识别、智能分段等功能。
RealtimeSTT是基于Whisper的流式语音转文字项目,具有实时性和纠错机制。它能快速监听麦克风并转换为文本,适用于需要快速精准转换的应用场景。
今天介绍的是RealtimeSTT项目,它是基于Whisper的基础上做的SST功能。其主要特点是流式输出、实时纠错机制和语音活动检测等功能,适用于需要快速精准转换的应用场景。