项目简介
Auralis 是一种文本转语音引擎,使语音生成在现实世界中变得实用:
- 
在 10 分钟内将整本《哈利·波特》第一本书转换为语音 
- 
自动增强参考质量,即使使用低质量麦克风也可以注册它们! 
- 
它可以配置为具有较小的内存占用(scheduler_max_concurrency) 
- 
同时处理多个请求 
- 
逐段流式传输长文本 
快速入门⭐
首先通过安装包
pip install auralis然后你尝试一下
from auralis import TTS, TTSRequest# Initializetts = TTS().from_pretrained("AstraMindAI/xttsv2", gpt_model='AstraMindAI/xtts2-gpt')# Generate speechrequest = TTSRequest(text="Hello Earth! This is Auralis speaking.",speaker_files=['reference.wav'])output = tts.generate_speech(request)output.save('hello.wav')
主要特点🛸
速度与效率
- 
使用智能批处理快速处理长文本 
- 
在消费级 GPU 上运行,不会出现内存问题 
- 
并行处理多个请求 
轻松集成
- 
简单的Python API 
- 
对长文本的流式支持 
- 
内置音频增强 
- 
自动语言检测 
音频质量
- 
从短样本克隆声音 
- 
背景噪音降低 
- 
语音清晰度增强 
- 
体积标准化 
XTTSv2 微调
您可以使用自己的 XTTSv2 微调,只需将其从标准 coqui 检查点格式转换为我们的 safetensor 格式即可。使用这个脚本:
python checkpoint_converter.py path/to/checkpoint.pth --output_dir path/to/output它将创建两个文件夹,一个包含核心 xttsv2 检查点,另一个包含 gtp2 组件。然后创建一个 TTS 实例
tts = TTS().from_pretrained("som/core-xttsv2_model", gpt_model='some/xttsv2-gpt_model')语言🌍
XTTSv2 支持:英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文(简体)、匈牙利语、韩语、日语、印地语
性能详情📊
NVIDIA 3090 上的处理速度:
- 
短语(< 100 个字符):~1 秒 
- 
中等文本(< 1000 个字符):~5-10 秒 
- 
完整书籍(约 500K 字符@并发 36):约 10 分钟 
内存使用情况:
- 
基础:~2.5GB VRAM 并发 = 1 
- 
~ 5.3GB VRAM 并发 = 20 
项目链接
https://github.com/astramind-ai/Auralis
扫码加入技术交流群,备注「开发语言-城市-昵称」
合作请注明

关注「GitHubStore」公众号
(文:GitHubStore)
 
					