Zonos-v0.1-transformer開源文本轉語音模型 - 媲美頂級服務商的多語言語音轉換

首頁

Zonos V0.1 Transformer

由Isi99999開發

Zonos-v0.1 是一款領先的開源權重文本轉語音模型，基於超過20萬小時的多語言語音數據訓練而成，其表現力和質量可與頂級TTS服務商媲美，甚至更勝一籌。

語音合成

Safetensors

開源協議:Apache-2.0 #零樣本語音克隆 #多語言TTS #情感可控

下載量 30

發布時間 : 2/23/2025

模型概述

Zonos-v0.1 是一款文本轉語音模型，能夠從文本提示生成高度自然的語音，支持語音克隆和情感調控。

模型特點

零樣本語音克隆

僅需幾秒的參考音頻片段即可精準實現語音克隆。

多語言支持

支持英語、日語、中文、法語、德語等多種語言。

情感調控

可精細調控語速、音高變化、音頻質量以及快樂、恐懼、悲傷、憤怒等情感。

高效推理

RTX 4090顯卡上即時因子達2倍速。

模型能力

文本轉語音

語音克隆

情感調控

多語言支持

使用案例

語音合成

語音助手

為語音助手生成自然語音。

高度自然的語音輸出。

有聲讀物

將文本轉換為有聲讀物。

高質量、富有表現力的語音。

語音克隆

個性化語音

克隆特定人物的語音。

精準復現目標音色。

🚀 Zonos-v0.1

Zonos-v0.1是一款領先的開源權重文本轉語音（TTS）模型，它在超過20萬小時的多語言語音數據上進行訓練，其表現力和質量與頂級TTS提供商相當，甚至更優。該模型能夠根據文本提示生成高度自然的語音，並且在給定參考音頻片段時可以準確進行語音克隆。此外，它還支持對語速、音高變化、音頻質量和情感等方面進行精細控制。

🚀 快速開始

你可以通過以下兩種方式使用Zonos-v0.1：

Python

import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-hybrid", device="cuda")
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
conditioning = model.prepare_conditioning(cond_dict)

codes = model.generate(conditioning)

wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Gradio界面（推薦）

uv run gradio_interface.py
# python gradio_interface.py

這將在你的項目根目錄下生成一個sample.wav文件。

💡 使用建議

對於重複採樣，我們強烈建議使用Gradio界面，因為上述最小示例每次運行時都需要加載模型。

✨ 主要特性

零樣本TTS與語音克隆：輸入所需文本和一個10 - 30秒的說話人樣本，即可生成高質量的TTS輸出。
音頻前綴輸入：添加文本和音頻前綴，以實現更豐富的說話人匹配。音頻前綴可用於實現諸如低語等行為，而僅從說話人嵌入進行克隆時，這些行為可能難以複製。
多語言支持：Zonos-v0.1支持英語、日語、中文、法語和德語。
音頻質量和情感控制：Zonos允許對生成音頻的多個方面進行精細控制，包括語速、音高、最大頻率、音頻質量以及各種情感，如快樂、憤怒、悲傷和恐懼。
快速運行：我們的模型在RTX 4090上的即時因子約為2倍。
Gradio WebUI：Zonos附帶了一個易於使用的Gradio界面，用於生成語音。
簡單的安裝和部署：可以使用我們倉庫中提供的Docker文件輕鬆安裝和部署Zonos。

📦 安裝指南

目前，此倉庫僅支持具有最新NVIDIA GPU（3000系列或更新版本，6GB以上顯存）的Linux系統（最好是Ubuntu 22.04/24.04）。

系統依賴

Zonos依賴於eSpeak庫進行音素化。你可以在Ubuntu上使用以下命令安裝它：

apt install -y espeak-ng

Python依賴

我們強烈建議使用最新版本的uv進行安裝。如果你沒有安裝uv，可以通過pip進行安裝：pip install -U uv。

安裝到新的uv虛擬環境（推薦）

uv sync
uv sync --extra compile

使用uv安裝到系統/激活的環境中

uv pip install -e .
uv pip install -e .[compile]

使用pip安裝到系統/激活的環境中

pip install -e .
pip install --no-build-isolation -e .[compile]

確認安裝是否成功

為了方便起見，我們提供了一個最小示例來檢查安裝是否正常工作：

uv run sample.py
# python sample.py

Docker安裝

git clone https://github.com/Zyphra/Zonos.git
cd Zonos

# 對於Gradio
docker compose up

# 或者用於開發
docker build -t Zonos .
docker run -it --gpus=all --net=host -v /path/to/Zonos:/Zonos -t Zonos
cd /Zonos
python sample.py # 這將在/Zonos中生成一個sample.wav文件

🔧 技術細節

Zonos採用了一種簡單直接的架構：首先通過eSpeak進行文本歸一化和音素化，然後通過Transformer或混合主幹進行DAC令牌預測。以下是該架構的概述圖：

📄 許可證

本項目採用Apache-2.0許可證。