ebook2audiobook 简介
ebook2audiobook[1] 是一个将电子书转换为有声书的工具,支持多种语言(超过 1107 种)和语音克隆功能。它通过动态 AI 模型和语音合成技术,将电子书内容转换为带有章节和元数据的有声书。
它的目标是为用户提供一种便捷的方式来享受有声阅读体验,同时支持多种电子书格式和输出格式。

项目特点
主要特点
- 
电子书格式支持:支持多种电子书格式,如 .epub、.pdf、.mobi、.txt等。 - 
多语言支持:支持超过 1107 种语言,包括但不限于英语、中文、阿拉伯语、法语等。  - 
语音克隆功能:用户可以使用自己的语音文件进行语音克隆,生成个性化的有声书。  - 
高质量语音合成:使用 Coqui XTTSv2、Fairseq 等技术,提供高质量的语音合成效果。  - 
章节分割:自动将电子书内容分割为章节,便于有声书的组织和播放。  - 
硬件适配:支持 CPU、GPU 和 Apple Silicon 等多种硬件平台。  - 
Docker 支持:提供 Docker 镜像,方便用户在不同环境中运行。  
使用场景
- 
个人阅读:将电子书转换为有声书,方便在开车、运动或休息时收听。  - 
多语言学习:通过语音克隆和多语言支持,帮助用户学习不同语言的发音和表达。  - 
内容创作:为播客、有声读物创作者提供素材生成工具。  - 
企业应用:用于生成有声内容,如有声教程、有声广告等。  
项目使用
安装与启动
- 
克隆项目:  
git clone https://github.com/DrewThomasson/ebook2audiobook.git
- 
运行 Gradio Web 界面:  
- 
Linux/MacOS:  
./ebook2audiobook.sh
- 
Windows:  
.\ebook2audiobook.cmd
- 
打开终端中提供的 URL,即可访问 Web 应用并开始转换电子书。  - 
如果需要生成公共链接,可在命令中添加 --share参数。 
- 
无头模式(Headless Mode):  
- 
Linux/MacOS:  
./ebook2audiobook.sh --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码>
- 
Windows:  
.\ebook2audiobook.cmd --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码>
- 
参数说明:  - 
--ebook:电子书文件路径。 - 
--voice:语音克隆文件路径(可选)。 - 
--language:语言代码(如eng表示英语,zh表示中文)。 
自定义模型使用
用户可以上传自定义的语音合成模型(必须为 .zip 格式,包含必要的模型文件)。例如:
./ebook2audiobook.sh --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码> --custom_model <自定义模型路径>
Docker 使用
- 
运行 Docker 容器:  
- 
仅使用 CPU:  
docker run --rm -p 7860:7860 athomasson2/ebook2audiobook
- 
使用 GPU 加速(仅限 NVIDIA):  
docker run --rm --gpus all -p 7860:7860 athomasson2/ebook2audiobook
- 
构建 Docker 镜像:  
docker build --platform linux/amd64 -t athomasson2/ebook2audiobook .
- 
无头模式运行:  
- 
创建 input-folder和Audiobooks文件夹,并将电子书文件放入input-folder中。 - 
使用以下命令运行:  
docker run --rm \
-v $(pwd)/input-folder:/home/user/app/input_folder \
-v $(pwd)/audiobooks:/home/user/app/audiobooks \
athomasson2/ebook2audiobook \
--headless --ebook /input_folder/<电子书文件名>
其他功能
- 
Hugging Face Space 演示:提供在线演示平台,用户可以通过 Hugging Face Space[2] 试用。  - 
Google Colab 支持:用户可以通过 Google Colab[3] 免费试用,但可能会因超时而中断。  
参考文档
- 
支持的语言详情[4]  - 
Docker 官方文档[5]  - 
Coqui XTTSv2 GitHub[6]  - 
Fairseq GitHub[7]  

注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。在线演示
欢迎关注&点赞&在看,感谢你的阅读~
Github地址: https://github.com/DrewThomasson/ebook2audiobook
[2]Hugging Face Space 演示: https://huggingface.co/spaces/drewThomasson/ebook2audiobook
[3]Google Colab 支持: https://colab.research.google.com/github/DrewThomasson/ebook2audiobook/blob/main/Notebooks/colab_ebook2audiobook.ipynb
[4]支持的语言列表: https://dl.fbaipublicfiles.com/mms/tts/all-tts-languages.html
[5]Docker 使用指南: https://docs.docker.com/
[6]Coqui XTTSv2 文档: https://huggingface.co/coqui/XTTS-v2
[7]Fairseq 文档: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
(文:AIGC创想者)