VietTTS开源工具包 - 免费支持越南语自然语音合成与语音克隆

首页

Viet Tts

由 dangvansam 开发

VietTTS是一个开源工具包，提供强大的越南语TTS模型，支持自然语音合成和语音克隆。

语音合成支持多种语言开源协议:Apache-2.0 #越南语语音合成 #语音克隆 #多语音支持

下载量 285

发布时间 : 10/23/2024

模型简介

VietTTS是一个专为越南语设计的文本转语音系统，能够实现高质量的语音合成和稳健的语音克隆。它支持高效实验，适用于越南语语音技术的研究和应用。

模型特点

文本转语音

通过提示音频生成任意语音的文本转语音

兼容OpenAI API

兼容OpenAI的文本转语音API格式

语音克隆

支持从本地音频文件克隆语音

模型能力

越南语语音合成

语音克隆

多语音支持

使用案例

语音技术

语音助手

为越南语语音助手提供自然语音输出

有声读物

将越南语文本转换为自然语音的有声读物

🚀 VietTTS：开源越南语文本转语音工具

VietTTS 是一个开源工具包，为社区提供了强大的越南语文本转语音（TTS）模型，能够实现自然语音合成和强大的语音克隆功能。它专为高效实验而设计，支持越南语语音技术的研究和应用。

🚀 快速开始

VietTTS 可通过 Python 安装程序（仅支持 Linux，即将支持 Windows 和 macOS）或 Docker 进行安装。

📦 安装指南

Python 安装程序（Python >= 3.10）

git clone https://github.com/dangvansam/viet-tts.git
cd viet-tts

# （可选）使用 conda 创建 Python 环境，你也可以使用 virtualenv 
conda create --name viettts python=3.10
conda activate viettts

# 安装
pip install -e . && pip cache purge

Docker

安装 Docker、NVIDIA 驱动、NVIDIA 容器工具包和 CUDA。
运行以下命令：

git clone https://github.com/dangvansam/viet-tts.git
cd viet-tts

# 构建 Docker 镜像
docker compose build

# 使用 docker-compose 运行 - 将在 http://localhost:8298 创建服务器
docker compose up -d

# 或者使用 docker run 运行 - 将在 http://localhost:8298 创建服务器
docker run -itd --gpu=alls -p 8298:8298 -v ./pretrained-models:/app/pretrained-models -n viet-tts-service viet-tts:latest viettts server --host 0.0.0.0 --port 8298

✨ 主要特性

TTS：通过提示音频实现任意语音的文本转语音生成。
兼容 OpenAI API：与 OpenAI 的文本转语音 API 格式兼容。

💻 使用示例

内置语音 🤠

你可以使用以下可用语音进行语音合成：

展开查看

ID	语音	性别
1	nsnd-le-chuc	👨
2	speechify_10	👩
3	atuan	👨
4	speechify_11	👩
5	cdteam	👨
6	speechify_12	👩
7	cross_lingual_prompt	👩
8	speechify_2	👩
9	diep-chi	👨
10	speechify_3	👩
11	doremon	👨
12	speechify_4	👩
13	jack-sparrow	👨
14	speechify_5	👩
15	nguyen-ngoc-ngan	👩
16	speechify_6	👩
17	nu-nhe-nhang	👩
18	speechify_7	👩
19	quynh	👩
20	speechify_8	👩
21	speechify_9	👩
22	son-tung-mtp	👨
23	zero_shot_prompt	👩
24	speechify_1	👩

命令行界面（CLI）

VietTTS 命令行界面（CLI）允许你直接从终端快速生成语音。以下是使用方法：

# 使用说明
viettts --help

# 启动 API 服务器
viettts server --host 0.0.0.0 --port 8298

# 列出所有内置语音
viettts show-voices

# 使用内置语音从文本合成语音
viettts synthesis --text "Xin chào" --voice 0 --output test.wav

# 从本地音频文件克隆语音
viettts synthesis --text "Xin chào" --voice Download/voice.wav --output cloned.wav

API 客户端

Python（OpenAI 客户端）

你需要为 OpenAI 客户端设置环境变量：

# 将 base_url 和 API 密钥设置为环境变量
export OPENAI_BASE_URL=http://localhost:8298
export OPENAI_API_KEY=viet-tts # 当前版本未使用

要从输入文本创建语音：

from pathlib import Path
from openai import OpenAI

client = OpenAI()

output_file_path = Path(__file__).parent / "speech.wav"

with client.audio.speech.with_streaming_response.create(
  model='tts-1',
  voice='cdteam',
  input='Xin chào Việt Nam.',
  speed=1.0,
  response_format='wav'
) as response:
  response.stream_to_file('a.wav')

CURL

# 获取所有内置语音
curl --location http://0.0.0.0:8298/v1/voices

# OpenAI 格式（内置语音）
curl http://localhost:8298/v1/audio/speech \
  -H "Authorization: Bearer viet-tts" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Xin chào Việt Nam.",
    "voice": "son-tung-mtp"
  }' \
  --output speech.wav

# 带有本地文件语音的 API
curl --location http://0.0.0.0:8298/v1/tts \
  --form 'text="xin chào"' \
  --form 'audio_file=@"/home/viettts/Downloads/voice.mp4"' \
  --output speech.wav

Node

import fs from "fs";
import path from "path";
import OpenAI from "openai";

const openai = new OpenAI();

const speechFile = path.resolve("./speech.wav");

async function main() {
  const mp3 = await openai.audio.speech.create({
    model: "tts-1",
    voice: "1",
    input: "Xin chào Việt Nam.",
  });
  console.log(speechFile);
  const buffer = Buffer.from(await mp3.arrayBuffer());
  await fs.promises.writeFile(speechFile, buffer);
}
main();