支持1107种语言+语音克隆!Ebook2Audiobook一键解锁全球有声书

在快节奏的现代生活中,人们越来越倾向于利用碎片化时间进行学习和娱乐。然而,传统的阅读方式往往受到时间和空间的限制。为了解决这一问题,开源工具ebook2audiobook 应运而生。它能够将电子书转换为有声书,让用户随时随地通过听觉享受阅读的乐趣。

一、项目概述

ebook2audiobook 是一个开源项目,旨在将电子书(eBooks)转换为有声书(audiobooks)。该项目利用先进的文本到语音(Text-to-Speech, TTS)技术,将电子书中的文本内容自动转换为语音,生成可供用户收听的有声书。它支持多种电子书格式,如 EPUBPDFMOBI 等,并能够保留章节结构和元数据,使生成的有声书更加易于导航和理解。

二、技术原理

(一)Calibre

Calibre 是一个强大的电子书管理和转换工具,能够处理多种电子书格式,包括 EPUBMOBIPDF 等。在 ebook2audiobook 中,Calibre 将电子书转换为文本格式,这是后续文本到语音(TTS)转换的前提。Calibre 还负责提取电子书的元数据,如章节标题和作者信息,以便在生成的有声书中保留这些重要信息。

(二)Coqui XTTS

Coqui XTTS 是 Mozilla 的 Coqui 团队推出的一个文本到语音(TTS)系统。它利用深度学习技术生成自然听起来的语音,特点是能够创建具有特定声音特征的合成语音,在声音克隆和多语言支持方面表现出色。在 ebook2audiobook 中,Coqui XTTS 负责将文本内容转换为语音,生成自然流畅的有声书。

(三)Fairseq

Fairseq 是 Facebook 开源的序列到序列建模库,用于构建高效的文本到语音模型。它支持多种语言,能够生成高质量的语音合成效果。在 ebook2audiobook 中,Fairseq 提供了强大的语音合成能力,使得生成的有声书语音质量更高,更加接近真人发音。

三、核心功能

(一)多格式支持

ebook2audiobook 支持多种电子书格式,包括 EPUBPDFMOBI 和 TXT 。这使得用户可以轻松地将各种格式的电子书转换为有声书。例如,用户可以将从图书馆借阅的 EPUB 格式电子书,或者从网上下载的 PDF 格式文档,快速转换为有声书,无需担心格式问题。

(二)多语言支持

该工具支持超过1107 种语言,包括英语、中文、阿拉伯语、法语等。这为不同语言的用户提供了极大的便利。无论是想听英文小说、法文诗歌还是阿拉伯语历史书籍,ebook2audiobook 都能满足需求。这对于语言学习者来说尤其有用,可以通过收听不同语言的有声书来提高语言听力水平。

(三)语音克隆

用户可以使用自己的语音文件进行语音克隆,生成个性化的有声书。这一功能使得生成的有声书更加贴近用户的语音习惯。例如,父母可以使用自己的声音为孩子制作有声童话故事,或者老师可以用自己的声音为学生录制教材有声书,增加亲切感和代入感。

(四)章节分割

ebook2audiobook 自动将电子书内容分割为章节,便于有声书的组织和播放。这使得用户在收听有声书时可以更方便地进行章节切换。例如,在收听长篇小说时,用户可以轻松跳转到特定章节,而不会感到困惑或迷失。

(五)高质量语音合成

利用Coqui XTTSv2Fairseq 等技术,ebook2audiobook 提供高质量的语音合成效果。生成的语音自然流畅,接近真人发音。例如,在播放专业书籍或学术文章时,清晰准确的语音合成有助于用户更好地理解和吸收内容。

四、优势特点

与传统的有声书平台相比,ebook2audiobook 具有以下优势:

  • 成本:免费开源,所有功能均可免费使用。用户无需支付高昂的订阅费用即可享受高质量的有声书制作服务。

  • 内容丰富度:电子书资源广泛,几乎无限制。用户可以自由选择各种类型的电子书进行转换,不受平台内容库的限制。

  • 隐私保护:本地运行,完全保护用户隐私。用户的电子书文件和生成的有声书文件均存储在本地设备上,不会上传到云端,确保了用户数据的安全。

  • 自定义能力:支持定制多语言和多种语音风格。用户可以根据自己的喜好选择不同的语音风格和语速,打造个性化的有声书。

  • 跨平台支持:支持 WindowsmacOSLinux 全平台。无论用户使用哪种操作系统,都可以轻松安装和使用 ebook2audiobook

五、使用方法

(一)安装与启动

1. 克隆项目

git clone https://github.com/DrewThomasson/ebook2audiobook.gitcd ebook2audiobook

(二)使用GUI 界面

Linux/MacOS

./ebook2audiobook.sh

Windows

ebook2audiobook.cmd # 双击ebook2audiobook.cmd

启动后,终端将提供一个Web 应用的 URL,通过该 URL 可以在浏览器中访问并使用应用。

(三)使用命令行模式

如果您更喜欢使用命令行,可以通过以下步骤进行操作:

1. 基本命令行用法:

Linux/MacOS

./ebook2audiobook.sh --headless --ebook <path_to_ebook_file> --language <language_code>

Windows

ebook2audiobook.cmd --headless --ebook <path_to_ebook_file> --language <language_code>

其中`<path_to_ebook_file>` 是电子书文件的路径,`<language_code>` 是语言代码,如 `zh` 表示中文,`en` 表示英文。

(四)使用Docker 运行

如果您希望通过Docker 运行 ebook2audiobook,可以按照以下步骤操作:

1. 拉取 Docker 镜像:

docker pull athomasson2/ebook2audiobook

2.运行 Docker 容器:

仅使用CPU 运行:

docker run --pull always --rm -p 7860:7860 athomasson2/ebook2audiobook

使用GPU 加速运行(仅限 Nvidia 显卡):

docker run --pull always --rm --gpus all -p 7860:7860 athomasson2/ebook2audiobook

3. 访问 Web 应用:

容器启动后,您可以通过浏览器访问`http://localhost:7860` 来使用 ebook2audiobook 的 Web 界面。

(五)使用Docker Compose

如果您更喜欢使用Docker Compose 来管理容器,可以按照以下步骤操作:

1. 克隆项目并进入目录:

git clone https://github.com/DrewThomasson/ebook2audiobook.gitcd ebook2audiobook

2. 启用 GPU 支持(可选):

如果您需要启用GPU 支持,请编辑 `docker-compose.yml` 文件,将 `*gpu-disabled` 改为 `*gpu-enabled`

3. 启动服务:

docker-compose up

4. 访问服务:

服务将在`http://localhost:7860` 上运行,您可以通过浏览器访问该地址来使用 ebook2audiobook 的 Web 界面。

六、应用场景

(一)个人阅读

ebook2audiobook 可以将电子书转换为有声书,方便用户在开车、运动或休息时收听。这使得用户可以充分利用碎片化时间进行学习和娱乐。例如,在通勤路上佩戴耳机收听有声书,可以让原本枯燥的路程变得更加充实和有趣。

(二)多语言学习

通过语音克隆和多语言支持,ebook2audiobook 帮助用户学习不同语言的发音和表达。这对于语言学习者来说是一个非常有用的工具。例如,学习西班牙语的用户可以收听用西班牙语制作的有声书,通过模仿语音语调来提高口语能力。

(三)内容创作

ebook2audiobook 为播客、有声读物创作者提供素材生成工具。创作者可以利用该工具快速生成高质量的有声内容。例如,创作者可以在短时间内将一本热门小说转换为有声书,上传到平台上吸引听众,提高创作效率。

(四)企业应用

企业可以使用ebook2audiobook 生成有声内容,如有声教程、有声广告等。这有助于企业提升内容的多样性和吸引力。例如,教育培训机构可以将教材制作成有声书,供学员在课后复习,增强学习效果。

七、总结

ebook2audiobook 是一款兼具功能性和实用性的工具,尤其适合需要听书、学习外语或为阅读障碍者提供帮助的用户。它开源免费、支持多种格式和语言,是 AI 赋能阅读的一个典型应用案例。赶快下载体验吧!

代码仓库:https://github.com/DrewThomasson/ebook2audiobook

在线地址:https://huggingface.co/spaces/drewThomasson/ebook2audiobook


(文:小兵的AI视界)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往