21.7K 标星的开源TTS！FishAudio开源情感语音核弹：200万小时炼成“声优AI”！

在 AI 语音模型领域，不论开源还是闭源模型，能在全球排上前十的屈指可数，而 FishAudio 团队语音模型就在其列，每每有新模型上线，总能排进TTS-Arena TOP3之内。

近期，Fish Audio 推出了新一代的 TTS 语音模型：OpenAudio S1，距上一次 Fish Speech 1.5 语音模型升级已有半年。

而这次全新的语音生成模型，还是给大众带来不小的惊喜！它基于200万小时音频数据训练，采用Qwen3+Descript Audio Codec架构，通过在线 RLHF（GRPO）优化，不仅生成接近人类配音演员的自然语音，还通过50+情感和语调标记（如愤怒、悲伤、笑声）实现细腻的情感表达。

根据 TTS-Arena 榜单，OpenAudio S1 荣登第一名，超越 ElevenLabs 等闭源模型。

OpenAudio S1 提供了S1（4B参数，旗舰版）和S1-mini（0.5B参数，开源版）两个模型，可灵活适配。

S1 线上版本可直接访问官网，直接使用邮箱注册使用，每日都有免费额度。

官网：https://fish.audio/zh-CN

进入主页后，点击「语音合成」，在点击「从头开始」，进而开始你的语音合成任务。

从线上语音库选择一个角色音色，或者自己克隆一个声音，然后模型选择“S1”，输入要文本转语音的内容，就可以开始生成了。

我这里选择了邓紫棋的音色来看看效果。节选了《难哄》中一段原著小说文本。

“温以凡盯着屏幕看了好一会儿，被欲望和占有两个词惊得头皮发麻，她的表情有些僵硬，指尖在屏幕上动了动，缓慢地敲出了个问号。”

可以明显听出，无论从音色，还是情感、停顿、语调语速都比较自然。

FishSpeech 官网还可以直接克隆音色，而且超级简单，不需要填写其他训练参数。

点击「构建声音」标签页，即可跳转到声音训练界面，只需要提前准备好相关的同一个角色的音频文件，所有文件合集不可大于150M，填写好角色模型名称即可开始训练。

当然，官方也开源了 S1-mini 轻量版本，可以自行部署。（官方文档有详细部署指南）

同时，在 Hugging Face 有部署好的 Space 可以直接使用，只需输入文本，填写好参数即可。

OpenAudio S1的50+情感标记和多语言支持让它适用于多种场景：

OpenAudio S1 以200万小时音频数据、50+情感标记和多语言支持，重新定义了TTS的性能标杆。

它就像给TTS装上了“情感引擎”，主打情感驱动，极致自然！

真实感、控制力、开放性，全面封神！

无论你是开发者、创作者，还是研究者，这款模型（应用）都将大幅降低你的 TTS 成本与门槛，为你的创意注入声音的灵魂。

GitHub 项目地址：https://github.com/fishaudio/fish-speech

HF 模型：https://huggingface.co/fishaudio/openaudio-s1-mini

HF 体验：https://huggingface.co/spaces/fishaudio/openaudio-s1-mini

● 一款改变你视频下载体验的神器：MediaGo

● 字节把 Coze 核心开源了！可视化工作流引擎 FlowGram 上线，AI 赋能可视化流程！

● 英伟达开源语音识别模型！0.6B 参数登顶 ASR 榜单，1 秒转录 60 分钟音频！

● 开发者的文档收割机来了！这个开源工具让你一小时干完一周的活！

● PDF文档解剖术！OCR神器+1，这个开源工具把复杂排版秒变结构化数据！

（文：开源星探）