🚀 Zonos-v0.1
Zonos-v0.1是一款领先的开源权重文本转语音(TTS)模型,它在超过20万小时的多语言语音数据上进行训练,其表现力和质量与顶级TTS提供商相当,甚至更优。该模型能够根据文本提示生成高度自然的语音,并且在给定参考音频片段时可以准确进行语音克隆。此外,它还支持对语速、音高变化、音频质量和情感等方面进行精细控制。
🚀 快速开始
你可以通过以下两种方式使用Zonos-v0.1:
Python
import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)
cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
Gradio界面(推荐)
uv run gradio_interface.py
这将在你的项目根目录下生成一个sample.wav
文件。
💡 使用建议
对于重复采样,我们强烈建议使用Gradio界面,因为上述最小示例每次运行时都需要加载模型。
✨ 主要特性
- 零样本TTS与语音克隆:输入所需文本和一个10 - 30秒的说话人样本,即可生成高质量的TTS输出。
- 音频前缀输入:添加文本和音频前缀,以实现更丰富的说话人匹配。音频前缀可用于实现诸如低语等行为,而仅从说话人嵌入进行克隆时,这些行为可能难以复制。
- 多语言支持:Zonos-v0.1支持英语、日语、中文、法语和德语。
- 音频质量和情感控制:Zonos允许对生成音频的多个方面进行精细控制,包括语速、音高、最大频率、音频质量以及各种情感,如快乐、愤怒、悲伤和恐惧。
- 快速运行:我们的模型在RTX 4090上的实时因子约为2倍。
- Gradio WebUI:Zonos附带了一个易于使用的Gradio界面,用于生成语音。
- 简单的安装和部署:可以使用我们仓库中提供的Docker文件轻松安装和部署Zonos。
📦 安装指南
目前,此仓库仅支持具有最新NVIDIA GPU(3000系列或更新版本,6GB以上显存)的Linux系统(最好是Ubuntu 22.04/24.04)。
系统依赖
Zonos依赖于eSpeak库进行音素化。你可以在Ubuntu上使用以下命令安装它:
apt install -y espeak-ng
Python依赖
我们强烈建议使用最新版本的uv进行安装。如果你没有安装uv,可以通过pip进行安装:pip install -U uv
。
安装到新的uv虚拟环境(推荐)
uv sync
uv sync --extra compile
使用uv安装到系统/激活的环境中
uv pip install -e .
uv pip install -e .[compile]
使用pip安装到系统/激活的环境中
pip install -e .
pip install --no-build-isolation -e .[compile]
确认安装是否成功
为了方便起见,我们提供了一个最小示例来检查安装是否正常工作:
uv run sample.py
Docker安装
git clone https://github.com/Zyphra/Zonos.git
cd Zonos
docker compose up
docker build -t Zonos .
docker run -it --gpus=all --net=host -v /path/to/Zonos:/Zonos -t Zonos
cd /Zonos
python sample.py
🔧 技术细节
Zonos采用了一种简单直接的架构:首先通过eSpeak进行文本归一化和音素化,然后通过Transformer或混合主干进行DAC令牌预测。以下是该架构的概述图:
📄 许可证
本项目采用Apache-2.0许可证。
更多信息