Viet Tts
VietTTS是一個開源工具包,提供強大的越南語TTS模型,支持自然語音合成和語音克隆。
下載量 285
發布時間 : 10/23/2024
模型概述
VietTTS是一個專為越南語設計的文本轉語音系統,能夠實現高質量的語音合成和穩健的語音克隆。它支持高效實驗,適用於越南語語音技術的研究和應用。
模型特點
文本轉語音
通過提示音頻生成任意語音的文本轉語音
兼容OpenAI API
兼容OpenAI的文本轉語音API格式
語音克隆
支持從本地音頻文件克隆語音
模型能力
越南語語音合成
語音克隆
多語音支持
使用案例
語音技術
語音助手
為越南語語音助手提供自然語音輸出
有聲讀物
將越南語文本轉換為自然語音的有聲讀物
🚀 VietTTS:開源越南語文本轉語音工具
VietTTS 是一個開源工具包,為社區提供了強大的越南語文本轉語音(TTS)模型,能夠實現自然語音合成和強大的語音克隆功能。它專為高效實驗而設計,支持越南語語音技術的研究和應用。
🚀 快速開始
VietTTS 可通過 Python 安裝程序(僅支持 Linux,即將支持 Windows 和 macOS)或 Docker 進行安裝。
📦 安裝指南
Python 安裝程序(Python >= 3.10)
git clone https://github.com/dangvansam/viet-tts.git
cd viet-tts
# (可選)使用 conda 創建 Python 環境,你也可以使用 virtualenv
conda create --name viettts python=3.10
conda activate viettts
# 安裝
pip install -e . && pip cache purge
Docker
- 安裝 Docker、NVIDIA 驅動、NVIDIA 容器工具包 和 CUDA。
- 運行以下命令:
git clone https://github.com/dangvansam/viet-tts.git
cd viet-tts
# 構建 Docker 鏡像
docker compose build
# 使用 docker-compose 運行 - 將在 http://localhost:8298 創建服務器
docker compose up -d
# 或者使用 docker run 運行 - 將在 http://localhost:8298 創建服務器
docker run -itd --gpu=alls -p 8298:8298 -v ./pretrained-models:/app/pretrained-models -n viet-tts-service viet-tts:latest viettts server --host 0.0.0.0 --port 8298
✨ 主要特性
- TTS:通過提示音頻實現任意語音的文本轉語音生成。
- 兼容 OpenAI API:與 OpenAI 的文本轉語音 API 格式兼容。
💻 使用示例
內置語音 🤠
你可以使用以下可用語音進行語音合成:
展開查看
ID | 語音 | 性別 | 播放音頻 |
---|---|---|---|
1 | nsnd-le-chuc | 👨 | |
2 | speechify_10 | 👩 | |
3 | atuan | 👨 | |
4 | speechify_11 | 👩 | |
5 | cdteam | 👨 | |
6 | speechify_12 | 👩 | |
7 | cross_lingual_prompt | 👩 | |
8 | speechify_2 | 👩 | |
9 | diep-chi | 👨 | |
10 | speechify_3 | 👩 | |
11 | doremon | 👨 | |
12 | speechify_4 | 👩 | |
13 | jack-sparrow | 👨 | |
14 | speechify_5 | 👩 | |
15 | nguyen-ngoc-ngan | 👩 | |
16 | speechify_6 | 👩 | |
17 | nu-nhe-nhang | 👩 | |
18 | speechify_7 | 👩 | |
19 | quynh | 👩 | |
20 | speechify_8 | 👩 | |
21 | speechify_9 | 👩 | |
22 | son-tung-mtp | 👨 | |
23 | zero_shot_prompt | 👩 | |
24 | speechify_1 | 👩 |
命令行界面(CLI)
VietTTS 命令行界面(CLI)允許你直接從終端快速生成語音。以下是使用方法:
# 使用說明
viettts --help
# 啟動 API 服務器
viettts server --host 0.0.0.0 --port 8298
# 列出所有內置語音
viettts show-voices
# 使用內置語音從文本合成語音
viettts synthesis --text "Xin chào" --voice 0 --output test.wav
# 從本地音頻文件克隆語音
viettts synthesis --text "Xin chào" --voice Download/voice.wav --output cloned.wav
API 客戶端
Python(OpenAI 客戶端)
你需要為 OpenAI 客戶端設置環境變量:
# 將 base_url 和 API 密鑰設置為環境變量
export OPENAI_BASE_URL=http://localhost:8298
export OPENAI_API_KEY=viet-tts # 當前版本未使用
要從輸入文本創建語音:
from pathlib import Path
from openai import OpenAI
client = OpenAI()
output_file_path = Path(__file__).parent / "speech.wav"
with client.audio.speech.with_streaming_response.create(
model='tts-1',
voice='cdteam',
input='Xin chào Việt Nam.',
speed=1.0,
response_format='wav'
) as response:
response.stream_to_file('a.wav')
CURL
# 獲取所有內置語音
curl --location http://0.0.0.0:8298/v1/voices
# OpenAI 格式(內置語音)
curl http://localhost:8298/v1/audio/speech \
-H "Authorization: Bearer viet-tts" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"input": "Xin chào Việt Nam.",
"voice": "son-tung-mtp"
}' \
--output speech.wav
# 帶有本地文件語音的 API
curl --location http://0.0.0.0:8298/v1/tts \
--form 'text="xin chào"' \
--form 'audio_file=@"/home/viettts/Downloads/voice.mp4"' \
--output speech.wav
Node
import fs from "fs";
import path from "path";
import OpenAI from "openai";
const openai = new OpenAI();
const speechFile = path.resolve("./speech.wav");
async function main() {
const mp3 = await openai.audio.speech.create({
model: "tts-1",
voice: "1",
input: "Xin chào Việt Nam.",
});
console.log(speechFile);
const buffer = Buffer.from(await mp3.arrayBuffer());
await fs.promises.writeFile(speechFile, buffer);
}
main();
🙏 致謝
- 💡 借鑑了 Cosyvoice 的代碼。
- 🎙️ 使用了 silero-vad 的 VAD 模型。
- 📝 採用 Vinorm 進行文本歸一化。
📄 許可證
VietTTS 源代碼遵循 Apache 2.0 許可證 發佈。預訓練模型和音頻樣本基於野外數據集,遵循 CC BY - NC 許可證。對於可能造成的不便,我們深表歉意。
⚠️ 免責聲明
上述內容僅用於學術目的,旨在展示技術能力。部分示例源自互聯網。若任何內容侵犯了你的權益,請聯繫我們要求刪除。
💬 聯繫我們
- Facebook: https://fb.com/sam.rngd
- GitHub: https://github.com/dangvansam
- Email: dangvansam98@gmail.com
Kokoro 82M
Apache-2.0
Kokoro是一款擁有8200萬參數的開源文本轉語音(TTS)模型,以其輕量級架構和高音質著稱,同時具備快速和成本效益高的特點。
語音合成 英語
K
hexgrad
2.0M
4,155
XTTS V2
其他
ⓍTTS是一款革命性的語音生成模型,僅需6秒音頻片段即可實現跨語言音色克隆,支持17種語言。
語音合成
X
coqui
1.7M
2,630
F5 TTS
F5-TTS 是一個基於流匹配的語音合成模型,專注於流暢且忠實的語音合成,特別適用於童話講述等場景。
語音合成
F
SWivid
851.49k
1,000
Bigvgan V2 22khz 80band 256x
MIT
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠從梅爾頻譜生成高質量音頻波形。
語音合成
B
nvidia
503.23k
16
Speecht5 Tts
MIT
基於LibriTTS數據集微調的SpeechT5語音合成(文本轉語音)模型,支持高質量的文本轉語音轉換。
語音合成
Transformers

S
microsoft
113.83k
760
Dia 1.6B
Apache-2.0
Dia是由Nari實驗室開發的16億參數文本轉語音模型,能夠直接從文本生成高度逼真的對話,支持情感和語調控制,並能生成非語言交流內容。
語音合成
Safetensors 英語
D
nari-labs
80.28k
1,380
Csm 1b
Apache-2.0
CSM是Sesame開發的10億參數規模語音生成模型,可根據文本和音頻輸入生成RVQ音頻編碼
語音合成
Safetensors 英語
C
sesame
65.03k
1,950
Kokoro 82M V1.1 Zh
Apache-2.0
Kokoro 是一個開放權重的小型但功能強大的文本轉語音(TTS)模型系列,新增了來自專業數據集的100名中文說話人數據。
語音合成
K
hexgrad
51.56k
112
Indic Parler Tts
Apache-2.0
Indic Parler-TTS 是 Parler-TTS Mini 的多語言印度語言擴展版本,支持21種語言,包括多種印度語言和英語。
語音合成
Transformers 支持多種語言

I
ai4bharat
43.59k
124
Bark
MIT
Bark是由Suno創建的基於Transformer的文本轉音頻模型,能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。
語音合成
Transformers 支持多種語言

B
suno
35.72k
1,326
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98