vocalbook

VC/VC++ 2025-07-31

vocalbook

vocalbook是一种使用文本到语音(TTS)→RVC管道的文本到原告生成器。该管道通过首先使用TTS模型生成音频,然后将其通过RVC模型来工作。该应用程序旨在运行在硬件上,该硬件通常被认为不适合重型机器学习任务。


文字到语音

对于文本到语音,此应用程序使用Edge TTSCoqui TTS

  • Edge TTS是一个Microsoft项目,具有300多个声音。它包括几乎每个国家和语言的男性和女性声音。 Edge是快速音频转换的绝佳工具。

  • Coqui TTS是一个开源项目,具有多种高质量模型。在此应用中,我们专门使用XTT 。它执行称为语音克隆的东西:当给出一个简短(15–30秒)的音频剪辑时,它将尝试在该声音中综合未来的语音。 Coqui非常适合模仿声音,但它很慢,偶尔会误音,并且可能会在长长的文字中挣扎。


RVC

RVC代表基于检索的语音转换。 TTS从文本中生成音频,而RVC则将一个音频输入转换为另一个音频输入 - 它是音频到原告。它通常在语音更换器中使用,并已成为以下流行工具:

  • 提高音频质量
  • 模仿特定的声音
  • 语音样式转移

RVC有很多社区支持:

  • https://voi*c**e-models.com/
  • https://www.we*i*g*hts.com/
  • https://*rvc*-model*s.com/

要找到一个特定的声音(无论是名人,政治家还是虚构的角色),请查看这些网站。 (请负责任地使用。)


如何使用vocalbook

该应用程序围绕两个关键的摘要:配置作业

  • 配置是您构建的一组指令,用于告诉vocalbook如何生成所需的语音。如果您使用前端界面,它为您提供了一种实验并找到完美声音的好方法。

  • 作业由配置,文档和运行过程中生成的所有音频组成。将配置和作业保留为单独的概念意味着您可以在许多不同的文档中重复使用config。

下载源码

通过命令行克隆项目:

git clone https://github.com/ColbyStarr/vocalbook.git