GanyuTTS

VC/VC++ 2025-08-10

GanyuTTS

GanyuTTS是用于从文本中生成语音的VITS + SO-VITS工具。它最初是为游戏精英制作的,但我将其与主要项目分开,因此现在可以用作独立推理工具或API。 Edditts可在此处使用。

这绝对只是一个玩具项目,所以不要期望太多。仍然有很多东西进行了硬编码,并且代码不是很干净。将来我会尝试清理它。

我只是为了自己的便利而制作了此存储库,但是如果愿意,请随时使用它。

安装

我建议为此使用虚拟环境(CONDA或VENV)。另外,我建议使用Python 3.9或更高。不需要GPU,但它将加快推理。

pip install -r requirements.txt

对于Phonemizer ,您需要安装ESPEAK 。在Windows上,您可以从这里下载它。在Linux上,您可以使用软件包管理器安装它。

用法

配置文件

该程序需要一个名为config.json的配置文件。提供了一个示例文件。您可以更改模型和API键的路径。 PhoneMizer路径仅与Windows用户有关,如果您在其他位置安装了ESPEAK,则可以在此处进行编辑。如果要使用交互式模式,则需要从OpenAI获取API键。它非常便宜,值得回应的质量。

主要API

要启动API,请运行以下命令:

python main.py

该应用为文本到语音提供了简单的烧瓶API。您可以将发布请求发送到服务器,它将返回音频WAV文件。

示例请求主体:

{
    "text" : " Hello, world! " ,
    "sid1" : " 22 " , # speaker id in the multi-speaker VITS model
    "sid2" : " ganyu " # speaker id in the SO-VITS model
}

回复:

{
    "audio" : "  # base64 encoded raw audio
}

提供了用于测试API的API_CLIENT_EXAMPLE.PY。

简单推论

有两个推理脚本,一个用于VIT,另一个用于VIT + SO-VITS管道。您可以使用它们简单地从CLI创建音频。

仅对于VIT:

python inference_vits.py -t " Let's get started. I'll be your guide today. "

对于vits + so-vits:

python inference_vits_sovits.py -t " Let's get started. I'll be your guide today "

使用-h--help以获取更多信息。

型号

所有型号都应在模型文件夹中,您必须从我的HuggingFace Repo手动下载它。另外,不要忘记下载Hubert模型,这是So-Vits所需的。我正在使用“ checkpoint_best_legacy_500.pt”

学分

  • 原始vits -https://github.com/jaywalnut310/vits
  • text-generation-webui-https://github.com/oobabooga/text-generation-webui
下载源码

通过命令行克隆项目:

git clone https://github.com/legekka/GanyuTTS.git