VietTTS開源工具包 - 免費支持越南語自然語音合成與語音克隆

首頁

Viet Tts

由dangvansam開發

VietTTS是一個開源工具包，提供強大的越南語TTS模型，支持自然語音合成和語音克隆。

語音合成支持多種語言開源協議:Apache-2.0 #越南語語音合成 #語音克隆 #多語音支持

下載量 285

發布時間 : 10/23/2024

模型概述

VietTTS是一個專為越南語設計的文本轉語音系統，能夠實現高質量的語音合成和穩健的語音克隆。它支持高效實驗，適用於越南語語音技術的研究和應用。

模型特點

文本轉語音

通過提示音頻生成任意語音的文本轉語音

兼容OpenAI API

兼容OpenAI的文本轉語音API格式

語音克隆

支持從本地音頻文件克隆語音

模型能力

越南語語音合成

語音克隆

多語音支持

使用案例

語音技術

語音助手

為越南語語音助手提供自然語音輸出

有聲讀物

將越南語文本轉換為自然語音的有聲讀物

🚀 VietTTS：開源越南語文本轉語音工具

VietTTS 是一個開源工具包，為社區提供了強大的越南語文本轉語音（TTS）模型，能夠實現自然語音合成和強大的語音克隆功能。它專為高效實驗而設計，支持越南語語音技術的研究和應用。

🚀 快速開始

VietTTS 可通過 Python 安裝程序（僅支持 Linux，即將支持 Windows 和 macOS）或 Docker 進行安裝。

📦 安裝指南

Python 安裝程序（Python >= 3.10）

git clone https://github.com/dangvansam/viet-tts.git
cd viet-tts

# （可選）使用 conda 創建 Python 環境，你也可以使用 virtualenv 
conda create --name viettts python=3.10
conda activate viettts

# 安裝
pip install -e . && pip cache purge

Docker

安裝 Docker、NVIDIA 驅動、NVIDIA 容器工具包和 CUDA。
運行以下命令：

git clone https://github.com/dangvansam/viet-tts.git
cd viet-tts

# 構建 Docker 鏡像
docker compose build

# 使用 docker-compose 運行 - 將在 http://localhost:8298 創建服務器
docker compose up -d

# 或者使用 docker run 運行 - 將在 http://localhost:8298 創建服務器
docker run -itd --gpu=alls -p 8298:8298 -v ./pretrained-models:/app/pretrained-models -n viet-tts-service viet-tts:latest viettts server --host 0.0.0.0 --port 8298

✨ 主要特性

TTS：通過提示音頻實現任意語音的文本轉語音生成。
兼容 OpenAI API：與 OpenAI 的文本轉語音 API 格式兼容。

💻 使用示例

內置語音 🤠

你可以使用以下可用語音進行語音合成：

展開查看

ID	語音	性別
1	nsnd-le-chuc	👨
2	speechify_10	👩
3	atuan	👨
4	speechify_11	👩
5	cdteam	👨
6	speechify_12	👩
7	cross_lingual_prompt	👩
8	speechify_2	👩
9	diep-chi	👨
10	speechify_3	👩
11	doremon	👨
12	speechify_4	👩
13	jack-sparrow	👨
14	speechify_5	👩
15	nguyen-ngoc-ngan	👩
16	speechify_6	👩
17	nu-nhe-nhang	👩
18	speechify_7	👩
19	quynh	👩
20	speechify_8	👩
21	speechify_9	👩
22	son-tung-mtp	👨
23	zero_shot_prompt	👩
24	speechify_1	👩

命令行界面（CLI）

VietTTS 命令行界面（CLI）允許你直接從終端快速生成語音。以下是使用方法：

# 使用說明
viettts --help

# 啟動 API 服務器
viettts server --host 0.0.0.0 --port 8298

# 列出所有內置語音
viettts show-voices

# 使用內置語音從文本合成語音
viettts synthesis --text "Xin chào" --voice 0 --output test.wav

# 從本地音頻文件克隆語音
viettts synthesis --text "Xin chào" --voice Download/voice.wav --output cloned.wav

API 客戶端

Python（OpenAI 客戶端）

你需要為 OpenAI 客戶端設置環境變量：

# 將 base_url 和 API 密鑰設置為環境變量
export OPENAI_BASE_URL=http://localhost:8298
export OPENAI_API_KEY=viet-tts # 當前版本未使用

要從輸入文本創建語音：

from pathlib import Path
from openai import OpenAI

client = OpenAI()

output_file_path = Path(__file__).parent / "speech.wav"

with client.audio.speech.with_streaming_response.create(
  model='tts-1',
  voice='cdteam',
  input='Xin chào Việt Nam.',
  speed=1.0,
  response_format='wav'
) as response:
  response.stream_to_file('a.wav')

CURL

# 獲取所有內置語音
curl --location http://0.0.0.0:8298/v1/voices

# OpenAI 格式（內置語音）
curl http://localhost:8298/v1/audio/speech \
  -H "Authorization: Bearer viet-tts" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Xin chào Việt Nam.",
    "voice": "son-tung-mtp"
  }' \
  --output speech.wav

# 帶有本地文件語音的 API
curl --location http://0.0.0.0:8298/v1/tts \
  --form 'text="xin chào"' \
  --form 'audio_file=@"/home/viettts/Downloads/voice.mp4"' \
  --output speech.wav

Node

import fs from "fs";
import path from "path";
import OpenAI from "openai";

const openai = new OpenAI();

const speechFile = path.resolve("./speech.wav");

async function main() {
  const mp3 = await openai.audio.speech.create({
    model: "tts-1",
    voice: "1",
    input: "Xin chào Việt Nam.",
  });
  console.log(speechFile);
  const buffer = Buffer.from(await mp3.arrayBuffer());
  await fs.promises.writeFile(speechFile, buffer);
}
main();