9.1K+ Star！ebook2audiobook：一个将电子书转换为有声书的工具

欢迎关注我，持续获取更多内容，感谢赞&在看~

ebook2audiobook 简介

ebook2audiobook^[1] 是一个将电子书转换为有声书的工具，支持多种语言（超过 1107 种）和语音克隆功能。它通过动态 AI 模型和语音合成技术，将电子书内容转换为带有章节和元数据的有声书。

它的目标是为用户提供一种便捷的方式来享受有声阅读体验，同时支持多种电子书格式和输出格式。

项目特点

主要特点

电子书格式支持：支持多种电子书格式，如 .epub、.pdf、.mobi、.txt 等。
多语言支持：支持超过 1107 种语言，包括但不限于英语、中文、阿拉伯语、法语等。
语音克隆功能：用户可以使用自己的语音文件进行语音克隆，生成个性化的有声书。
高质量语音合成：使用 Coqui XTTSv2、Fairseq 等技术，提供高质量的语音合成效果。
章节分割：自动将电子书内容分割为章节，便于有声书的组织和播放。
硬件适配：支持 CPU、GPU 和 Apple Silicon 等多种硬件平台。
Docker 支持：提供 Docker 镜像，方便用户在不同环境中运行。

使用场景

个人阅读：将电子书转换为有声书，方便在开车、运动或休息时收听。
多语言学习：通过语音克隆和多语言支持，帮助用户学习不同语言的发音和表达。
内容创作：为播客、有声读物创作者提供素材生成工具。
企业应用：用于生成有声内容，如有声教程、有声广告等。

项目使用

安装与启动

克隆项目：

git clone https://github.com/DrewThomasson/ebook2audiobook.git

运行 Gradio Web 界面：

Linux/MacOS：

./ebook2audiobook.sh

Windows：

.\ebook2audiobook.cmd

打开终端中提供的 URL，即可访问 Web 应用并开始转换电子书。
如果需要生成公共链接，可在命令中添加 --share 参数。

无头模式（Headless Mode）：

Linux/MacOS：

./ebook2audiobook.sh --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码>

Windows：

.\ebook2audiobook.cmd --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码>

参数说明：
--ebook：电子书文件路径。
--voice：语音克隆文件路径（可选）。
--language：语言代码（如 eng 表示英语，zh 表示中文）。

自定义模型使用

用户可以上传自定义的语音合成模型（必须为 .zip 格式，包含必要的模型文件）。例如：

./ebook2audiobook.sh --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码> --custom_model <自定义模型路径>

Docker 使用

运行 Docker 容器：

仅使用 CPU：

docker run --rm -p 7860:7860 athomasson2/ebook2audiobook

使用 GPU 加速（仅限 NVIDIA）：

docker run --rm --gpus all -p 7860:7860 athomasson2/ebook2audiobook

构建 Docker 镜像：

docker build --platform linux/amd64 -t athomasson2/ebook2audiobook .

无头模式运行：

创建 input-folder 和 Audiobooks 文件夹，并将电子书文件放入 input-folder 中。
使用以下命令运行：

docker run --rm \
-v $(pwd)/input-folder:/home/user/app/input_folder \
-v $(pwd)/audiobooks:/home/user/app/audiobooks \
athomasson2/ebook2audiobook \
--headless --ebook /input_folder/<电子书文件名>

其他功能

Hugging Face Space 演示：提供在线演示平台，用户可以通过 Hugging Face Space^[2] 试用。
Google Colab 支持：用户可以通过 Google Colab^[3] 免费试用，但可能会因超时而中断。

参考文档

支持的语言详情^[4]
Docker 官方文档^[5]
Coqui XTTSv2 GitHub^[6]
Fairseq GitHub^[7]

注：本文内容仅供参考，具体项目特性请参照官方 GitHub 页面的最新说明。在线演示

欢迎关注&点赞&在看，感谢你的阅读~

资源列表

[1]

Github地址: https://github.com/DrewThomasson/ebook2audiobook

[2]

Hugging Face Space 演示: https://huggingface.co/spaces/drewThomasson/ebook2audiobook

[3]

Google Colab 支持: https://colab.research.google.com/github/DrewThomasson/ebook2audiobook/blob/main/Notebooks/colab_ebook2audiobook.ipynb

[4]

支持的语言列表: https://dl.fbaipublicfiles.com/mms/tts/all-tts-languages.html

[5]

Docker 使用指南: https://docs.docker.com/

[6]

Coqui XTTSv2 文档: https://huggingface.co/coqui/XTTS-v2

[7]

Fairseq 文档: https://github.com/facebookresearch/fairseq/tree/main/examples/mms

（文：AIGC创想者）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31