🚀 🎙️ F5-TTS-Vietnamese-150h
F5-TTS-Vietnamese-150h 是 F5-TTS 的紧凑微调版本,它在 150 小时的越南语语音数据上进行了训练,可用于越南语的文本转语音任务。
🚀 快速开始
要加载和使用该模型,请按照以下示例操作:
git clone https://github.com/nguyenthienhy/F5-TTS-Vietnamese
cd F5-TTS-Vietnamese
python -m pip install -e.
f5-tts_infer-cli \
--model "F5TTS_Base" \
--ref_audio ref.wav \
--ref_text "cả hai bên hãy cố gắng hiểu cho nhau" \
--gen_text "mình muốn ra nước ngoài để tiếp xúc nhiều công ty lớn, sau đó mang những gì học được về việt nam giúp xây dựng các công trình tốt hơn" \
--speed 1.0 \
--vocoder_name vocos \
--vocab_file data/your_training_dataset/vocab.txt \
--ckpt_file ckpts/your_training_dataset/model_500000.pt
✨ 主要特性
- 基于 F5-TTS 模型进行微调,适用于越南语的文本转语音。
- 训练数据丰富,涵盖了多个数据集和一些 YouTube 渠道的语音来源。
📦 安装指南
通过以下命令克隆项目并安装依赖:
git clone https://github.com/nguyenthienhy/F5-TTS-Vietnamese
cd F5-TTS-Vietnamese
python -m pip install -e.
📚 详细文档
🔍 模型详情
属性 |
详情 |
数据集 |
VLSP 2021、VLSP 2022、VLSP 2023、VietTTS、TeacherDinh - UEH 以及一些来自 YouTube 渠道的语音来源 |
数据集总时长 |
150 小时 |
数据处理技术 |
1. 使用 facebook demucs 模型移除音频中的所有音乐背景:https://github.com/facebookresearch/demucs 2. 不使用短于 1 秒或长于 30 秒的音频文件。 3. 保持默认标点符号不变。 4. 归一化为小写格式。 |
训练配置 |
基础模型:F5 - TTS_Base GPU:RTX 3090 批量大小:3200 帧 |
训练进度 |
在 500,000 步时停止 |
🛑 更新说明
感谢胡志明市经济大学(UEH)的 Định 老师提供了额外 50 小时的高质量标注数据集。
他的联系方式:https://www.facebook.com/luudinhit93
📄 许可证
本模型采用 [CC - BY - NC - SA - 4.0](https://spdx.org/licenses/CC - BY - NC - SA - 4.0) 许可证,仅可用于非商业研究用途。
⚠️ 重要提示
此模型仅用于研究目的。访问请求必须使用机构、学术或企业邮箱。来自公共邮箱提供商的请求将被拒绝,感谢理解。
💡 使用建议
如需进行更多微调实验,请访问:https://github.com/nguyenthienhy/F5 - TTS - Vietnamese。