传统TTS工具(如Google、ElevenLabs)依赖云端,隐私风险高,延迟200ms+,费用不菲。浏览器本地TTS的兴起,像给语音生成装上了“隐私大脑”。
记得年初也分享了一款开源TTS新宠 Kokoro-82M,超级轻量且高效。而今天所介绍的开源项目就是基于它进行开发的TTS工具:Streaming-KokoroJS。
有需要了解 Kokoro-82M 的小伙伴,也可以点击下面文章进行阅读了解。
超级爆火的TTS模型:Kokoro!荣登 TTS Arena 排行榜第一名,小巧轻量高性能!
Streaming-Kokoro 是一款基于网络的文本转语音应用程序,利用 Kokoro-82M
模型在浏览器中生成高质量的语音音频。
它完全在浏览器中运行,无需任何服务器端处理或 API 调用,是一个真正开源、隐私保护、零服务器依赖的TTS工具。
支持WebGPU加速、流式音频生成和多语言语音风格,适合内容创作者、教育工作者和开发者。
核心功能
-
• 100%本地运行:所有语音合成过程全部在浏览器端完成,不上传任何数据。 -
• WebGPU 加速:支持 WebGPU 高性能加速,没有 GPU 也可用 WASM 运行。 -
• 流式音频生成:将文本分块处理,并在生成音频时进行流式传输。 -
• 智能文本分块:自动切分长文本,保持停顿/节奏自然,语音连贯。 -
• 多语音风格:支持多种声线,并覆盖英语、日语、中文等多国家语言。 -
• 音频下载:生成音频可直接保存为MP3/WAV,方便离线使用。 -
• 轻量高效:300MB模型(首次加载缓存),占用内存低,适配中低端设备。
快速使用
Streaming-Kokoro 无需部署、即开即用,只需要克隆项目,将项目中的js代码下载本地。
具体流程如下:
1、克隆项目库(手动下载也可以)
git clone https://github.com/rhulha/StreamingKokoroJS.git
2、使用本地网络服务器提供文件(开启JS前端服务)
3、在浏览器中打开应用程序(推荐使用支持WebGPU的Chrome/Edge)
4、在文本区域输入或粘贴文本
5、点击“播放”以流式传输音频,或点击“下载”以将其保存到磁盘
官方也有在线体验 DEMO 可直接访问(打开网页,首次加载会自动下载约 300MB 模型):

https://rhulha.github.io/StreamingKokoroJS
适用场景
-
• 有声读物/视频配音:纯本地生成,隐私无忧,可一次性处理大量文本。 -
• 政府/医疗/教育:对数据敏感,不能上传云端处理的场景。 -
• 创意项目开发:作为浏览器插件、AI助手组件的语音引擎嵌入。 -
• 离线网页:可嵌入到离线网页或本地应用中,不依赖网络连接。
写在最后
Streaming-KokoroJS 是目前少有的真正支持本地语音合成的 TTS 工具,适合所有重视隐私、效率和使用便捷性的用户。
它基于Kokoro-82M,使用仅需自动下载300MB模型,还具备WebGPU加速,完全离线、高质量、低门槛齐聚一身。
如果你正在寻找一个能:离线使用、完全免费、支持多种语音风格、可集成到自定义系统中的 TTS 工具,那么这款浏览器内运行的TTS神器,值得成为你的预选!
GitHub 项目地址:https://github.com/rhulha/StreamingKokoroJS

● 一款改变你视频下载体验的神器:MediaGo
● 字节把 Coze 核心开源了!可视化工作流引擎 FlowGram 上线,AI 赋能可视化流程!
● 英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!
● 开发者的文档收割机来了!这个开源工具让你一小时干完一周的活!
● PDF文档解剖术!OCR神器+1,这个开源工具把复杂排版秒变结构化数据!

(文:开源星探)