🚀 🎙️ F5-TTS-Vietnamese-150h
F5-TTS-Vietnamese-150h 是 F5-TTS 的緊湊微調版本,它在 150 小時的越南語語音數據上進行了訓練,可用於越南語的文本轉語音任務。
🚀 快速開始
要加載和使用該模型,請按照以下示例操作:
git clone https://github.com/nguyenthienhy/F5-TTS-Vietnamese
cd F5-TTS-Vietnamese
python -m pip install -e.
f5-tts_infer-cli \
--model "F5TTS_Base" \
--ref_audio ref.wav \
--ref_text "cả hai bên hãy cố gắng hiểu cho nhau" \
--gen_text "mình muốn ra nước ngoài để tiếp xúc nhiều công ty lớn, sau đó mang những gì học được về việt nam giúp xây dựng các công trình tốt hơn" \
--speed 1.0 \
--vocoder_name vocos \
--vocab_file data/your_training_dataset/vocab.txt \
--ckpt_file ckpts/your_training_dataset/model_500000.pt
✨ 主要特性
- 基於 F5-TTS 模型進行微調,適用於越南語的文本轉語音。
- 訓練數據豐富,涵蓋了多個數據集和一些 YouTube 渠道的語音來源。
📦 安裝指南
通過以下命令克隆項目並安裝依賴:
git clone https://github.com/nguyenthienhy/F5-TTS-Vietnamese
cd F5-TTS-Vietnamese
python -m pip install -e.
📚 詳細文檔
🔍 模型詳情
屬性 |
詳情 |
數據集 |
VLSP 2021、VLSP 2022、VLSP 2023、VietTTS、TeacherDinh - UEH 以及一些來自 YouTube 渠道的語音來源 |
數據集總時長 |
150 小時 |
數據處理技術 |
1. 使用 facebook demucs 模型移除音頻中的所有音樂背景:https://github.com/facebookresearch/demucs 2. 不使用短於 1 秒或長於 30 秒的音頻文件。 3. 保持默認標點符號不變。 4. 歸一化為小寫格式。 |
訓練配置 |
基礎模型:F5 - TTS_Base GPU:RTX 3090 批量大小:3200 幀 |
訓練進度 |
在 500,000 步時停止 |
🛑 更新說明
感謝胡志明市經濟大學(UEH)的 Định 老師提供了額外 50 小時的高質量標註數據集。
他的聯繫方式:https://www.facebook.com/luudinhit93
📄 許可證
本模型採用 [CC - BY - NC - SA - 4.0](https://spdx.org/licenses/CC - BY - NC - SA - 4.0) 許可證,僅可用於非商業研究用途。
⚠️ 重要提示
此模型僅用於研究目的。訪問請求必須使用機構、學術或企業郵箱。來自公共郵箱提供商的請求將被拒絕,感謝理解。
💡 使用建議
如需進行更多微調實驗,請訪問:https://github.com/nguyenthienhy/F5 - TTS - Vietnamese。