🚀 Zonos-v0.1
Zonos-v0.1是一款領先的開源權重文本轉語音(TTS)模型,它在超過20萬小時的多語言語音數據上進行訓練,其表現力和質量與頂級TTS提供商相當,甚至更優。該模型能夠根據文本提示生成高度自然的語音,並且在給定參考音頻片段時可以準確進行語音克隆。此外,它還支持對語速、音高變化、音頻質量和情感等方面進行精細控制。
🚀 快速開始
你可以通過以下兩種方式使用Zonos-v0.1:
Python
import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)
cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
Gradio界面(推薦)
uv run gradio_interface.py
這將在你的項目根目錄下生成一個sample.wav
文件。
💡 使用建議
對於重複採樣,我們強烈建議使用Gradio界面,因為上述最小示例每次運行時都需要加載模型。
✨ 主要特性
- 零樣本TTS與語音克隆:輸入所需文本和一個10 - 30秒的說話人樣本,即可生成高質量的TTS輸出。
- 音頻前綴輸入:添加文本和音頻前綴,以實現更豐富的說話人匹配。音頻前綴可用於實現諸如低語等行為,而僅從說話人嵌入進行克隆時,這些行為可能難以複製。
- 多語言支持:Zonos-v0.1支持英語、日語、中文、法語和德語。
- 音頻質量和情感控制:Zonos允許對生成音頻的多個方面進行精細控制,包括語速、音高、最大頻率、音頻質量以及各種情感,如快樂、憤怒、悲傷和恐懼。
- 快速運行:我們的模型在RTX 4090上的即時因子約為2倍。
- Gradio WebUI:Zonos附帶了一個易於使用的Gradio界面,用於生成語音。
- 簡單的安裝和部署:可以使用我們倉庫中提供的Docker文件輕鬆安裝和部署Zonos。
📦 安裝指南
目前,此倉庫僅支持具有最新NVIDIA GPU(3000系列或更新版本,6GB以上顯存)的Linux系統(最好是Ubuntu 22.04/24.04)。
系統依賴
Zonos依賴於eSpeak庫進行音素化。你可以在Ubuntu上使用以下命令安裝它:
apt install -y espeak-ng
Python依賴
我們強烈建議使用最新版本的uv進行安裝。如果你沒有安裝uv,可以通過pip進行安裝:pip install -U uv
。
安裝到新的uv虛擬環境(推薦)
uv sync
uv sync --extra compile
使用uv安裝到系統/激活的環境中
uv pip install -e .
uv pip install -e .[compile]
使用pip安裝到系統/激活的環境中
pip install -e .
pip install --no-build-isolation -e .[compile]
確認安裝是否成功
為了方便起見,我們提供了一個最小示例來檢查安裝是否正常工作:
uv run sample.py
Docker安裝
git clone https://github.com/Zyphra/Zonos.git
cd Zonos
docker compose up
docker build -t Zonos .
docker run -it --gpus=all --net=host -v /path/to/Zonos:/Zonos -t Zonos
cd /Zonos
python sample.py
🔧 技術細節
Zonos採用了一種簡單直接的架構:首先通過eSpeak進行文本歸一化和音素化,然後通過Transformer或混合主幹進行DAC令牌預測。以下是該架構的概述圖:
📄 許可證
本項目採用Apache-2.0許可證。
更多信息