Whisper 归档 - 每时AI

新纪录！小米又抛出一个开源模型，在22个公开评测集上实现SOTA，主打声音理解

2025年8月4日23时作者头部科技

小米发布MiDashengLM-7B音频模型，通过统一理解语音、环境声与音乐的跨领域能力提高用户场景理解的泛化性。该模型基于公开数据集进行预训练和有监督微调，展示了在多项关键任务上的优势，并支持在边缘设备上部署。

2025年7月13日8时作者开源星探

Say 是一款基于Whisper和Transformers.js的开源浏览器内语音转文字工具，提供实时转录、富文本编辑等功能，并完全本地运行保护隐私。它支持多语言识别、实时波形显示、本地存储等特性。

2025年4月9日11时作者 GitHubStore

Krillin AI 是一款全能型音视频本地化与增强解决方案，支持横竖屏格式输出，一键启动、精准识别、智能分段等功能。

2025年3月23日23时作者量子位

谷歌发现大模型与人脑语言处理机制惊人一致，二者内部嵌入能预测大脑神经活动。

2025年1月17日23时作者开源AI项目落地

RealtimeSTT是基于Whisper的流式语音转文字项目，具有实时性和纠错机制。它能快速监听麦克风并转换为文本，适用于需要快速精准转换的应用场景。

2025年1月17日16时作者开源AI项目落地

今天介绍的是RealtimeSTT项目，它是基于Whisper的基础上做的SST功能。其主要特点是流式输出、实时纠错机制和语音活动检测等功能，适用于需要快速精准转换的应用场景。

2024年12月23日10时作者开源星探

Video_note_generator 是一个开源项目，可以根据视频内容，自动生成完整的小红书笔记，包括标题、正文、配图和标签。