高速文本转语音引擎Auralis，支持声音克隆功能

项目简介

Auralis 是一种文本转语音引擎，使语音生成在现实世界中变得实用：

在 10 分钟内将整本《哈利·波特》第一本书转换为语音
自动增强参考质量，即使使用低质量麦克风也可以注册它们！
它可以配置为具有较小的内存占用（scheduler_max_concurrency）
同时处理多个请求
逐段流式传输长文本

快速入门⭐

首先通过安装包

pip install auralis

然后你尝试一下

from auralis import TTS, TTSRequest
# Initializetts = TTS().from_pretrained("AstraMindAI/xttsv2", gpt_model='AstraMindAI/xtts2-gpt')
# Generate speechrequest = TTSRequest(    text="Hello Earth! This is Auralis speaking.",    speaker_files=['reference.wav'])
output = tts.generate_speech(request)output.save('hello.wav')

主要特点🛸

速度与效率

使用智能批处理快速处理长文本
在消费级 GPU 上运行，不会出现内存问题
并行处理多个请求

轻松集成

简单的Python API
对长文本的流式支持
内置音频增强
自动语言检测

音频质量

从短样本克隆声音
背景噪音降低
语音清晰度增强
体积标准化

XTTSv2 微调

您可以使用自己的 XTTSv2 微调，只需将其从标准 coqui 检查点格式转换为我们的 safetensor 格式即可。使用这个脚本：

python checkpoint_converter.py path/to/checkpoint.pth --output_dir path/to/output

它将创建两个文件夹，一个包含核心 xttsv2 检查点，另一个包含 gtp2 组件。然后创建一个 TTS 实例

tts = TTS().from_pretrained("som/core-xttsv2_model", gpt_model='some/xttsv2-gpt_model')

语言🌍

XTTSv2 支持：英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文（简体）、匈牙利语、韩语、日语、印地语

性能详情📊

NVIDIA 3090 上的处理速度：

短语（< 100 个字符）：~1 秒
中等文本（< 1000 个字符）：~5-10 秒
完整书籍（约 500K 字符@并发 36）：约 10 分钟

内存使用情况：

基础：~2.5GB VRAM 并发 = 1
~ 5.3GB VRAM 并发 = 20

项目链接

https://github.com/astramind-ai/Auralis

扫码加入技术交流群，备注「开发语言-城市-昵称」

合作请注明

关注「GitHubStore」公众号

（文：GitHubStore）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28