F5-TTS-Vietnamese-100h開源模型 - 支持越南語語音合成，僅用於研究！

首頁

F5 TTS Vietnamese 100h

由hynt開發

基於F5-TTS微調的緊湊版本，訓練數據為150小時的越南語語音，僅限研究用途。

語音合成

PyTorch

其他#越南語語音合成 #150小時微調 #學術研究專用

下載量 123

發布時間 : 3/23/2025

模型概述

這是一個針對越南語優化的文本轉語音(TTS)模型，基於F5-TTS架構微調，適用於越南語語音合成任務。

模型特點

高質量越南語語音合成

使用150小時精選越南語語音數據訓練，提供高質量的語音合成效果

嚴格的數據處理

使用demucs去除背景音樂，過濾短於1秒或長於30秒的音頻，保證數據質量

學術合作數據集

包含VLSP系列數據集和UEH大學提供的50小時高質量標註數據

模型能力

越南語文本轉語音

語音合成

語音克隆(通過參考音頻)

使用案例

學術研究

越南語語音合成研究

用於語音合成技術的研究和實驗

教育應用

越南語學習輔助

為越南語學習者提供發音參考

🚀 🎙️ F5-TTS-Vietnamese-150h

F5-TTS-Vietnamese-150h 是 F5-TTS 的緊湊微調版本，它在 150 小時的越南語語音數據上進行了訓練，可用於越南語的文本轉語音任務。

🚀 快速開始

要加載和使用該模型，請按照以下示例操作：

git clone https://github.com/nguyenthienhy/F5-TTS-Vietnamese
cd F5-TTS-Vietnamese
python -m pip install -e.
f5-tts_infer-cli \
--model "F5TTS_Base" \
--ref_audio ref.wav \
--ref_text "cả hai bên hãy cố gắng hiểu cho nhau" \
--gen_text "mình muốn ra nước ngoài để tiếp xúc nhiều công ty lớn, sau đó mang những gì học được về việt nam giúp xây dựng các công trình tốt hơn" \
--speed 1.0 \
--vocoder_name vocos \
--vocab_file data/your_training_dataset/vocab.txt \
--ckpt_file ckpts/your_training_dataset/model_500000.pt

✨ 主要特性

基於 F5-TTS 模型進行微調，適用於越南語的文本轉語音。
訓練數據豐富，涵蓋了多個數據集和一些 YouTube 渠道的語音來源。

📦 安裝指南

通過以下命令克隆項目並安裝依賴：

git clone https://github.com/nguyenthienhy/F5-TTS-Vietnamese
cd F5-TTS-Vietnamese
python -m pip install -e.

📚 詳細文檔

🔍 模型詳情

屬性	詳情
數據集	VLSP 2021、VLSP 2022、VLSP 2023、VietTTS、TeacherDinh - UEH 以及一些來自 YouTube 渠道的語音來源
數據集總時長	150 小時
數據處理技術	1. 使用 facebook demucs 模型移除音頻中的所有音樂背景：https://github.com/facebookresearch/demucs 2. 不使用短於 1 秒或長於 30 秒的音頻文件。 3. 保持默認標點符號不變。 4. 歸一化為小寫格式。
訓練配置	基礎模型：F5 - TTS_Base GPU：RTX 3090 批量大小：3200 幀
訓練進度	在 500,000 步時停止