🚀 SpeechT5 - 俄语转写
这个模型是基于 microsoft/speecht5_tts 在 Common Voice 13 数据集上进行微调的版本。它在评估集上取得了以下结果:
🚀 快速开始
本模型输入应为转写形式的俄语文本(可使用 transliterate
包)。不过要注意,这只是 HF 音频课程实践练习的一个测试,并非用于实际应用!
✨ 主要特性
- 基于
microsoft/speecht5_tts
模型微调,适配俄语转写文本。
- 在 Common Voice 13 数据集上进行训练和评估。
📚 详细文档
模型描述
输入需为转写形式的俄语文本(使用 transliterate
包)。这仅仅是 HF 音频课程实践练习的测试,不用于实际使用!
预期用途与限制
更多信息待补充。
训练和评估数据
更多信息待补充。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:1e - 05
- 训练批次大小:8
- 评估批次大小:2
- 随机种子:42
- 梯度累积步数:8
- 总训练批次大小:64
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:400
- 训练步数:2000
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
1.0359 |
0.6 |
50 |
0.8176 |
0.8866 |
1.19 |
100 |
0.6899 |
0.787 |
1.79 |
150 |
0.6478 |
0.7477 |
2.38 |
200 |
0.6233 |
0.6734 |
2.98 |
250 |
0.5630 |
0.6216 |
3.58 |
300 |
0.5429 |
0.593 |
4.17 |
350 |
0.5304 |
0.5817 |
4.77 |
400 |
0.5282 |
0.5734 |
5.37 |
450 |
0.5167 |
0.5688 |
5.96 |
500 |
0.5209 |
0.5662 |
6.56 |
550 |
0.5095 |
0.5609 |
7.15 |
600 |
0.5127 |
0.554 |
7.75 |
650 |
0.5041 |
0.5522 |
8.35 |
700 |
0.5038 |
0.5372 |
8.94 |
750 |
0.4984 |
0.5432 |
9.54 |
800 |
0.4995 |
0.5384 |
10.13 |
850 |
0.4971 |
0.5345 |
10.73 |
900 |
0.4981 |
0.5358 |
11.33 |
950 |
0.4942 |
0.5332 |
11.92 |
1000 |
0.4906 |
0.5334 |
12.52 |
1050 |
0.4897 |
0.5301 |
13.11 |
1100 |
0.4914 |
0.5298 |
13.71 |
1150 |
0.4894 |
0.524 |
14.31 |
1200 |
0.4871 |
0.5221 |
14.9 |
1250 |
0.4884 |
0.525 |
15.5 |
1300 |
0.4883 |
0.5232 |
16.1 |
1350 |
0.4866 |
0.5261 |
16.69 |
1400 |
0.4858 |
0.521 |
17.29 |
1450 |
0.4852 |
0.5225 |
17.88 |
1500 |
0.4849 |
0.5219 |
18.48 |
1550 |
0.4860 |
0.5207 |
19.08 |
1600 |
0.4839 |
0.5192 |
19.67 |
1650 |
0.4851 |
0.516 |
20.27 |
1700 |
0.4860 |
0.5186 |
20.86 |
1750 |
0.4811 |
0.5233 |
21.46 |
1800 |
0.4841 |
0.5145 |
22.06 |
1850 |
0.4819 |
0.5159 |
22.65 |
1900 |
0.4822 |
0.5146 |
23.25 |
1950 |
0.4831 |
0.5175 |
23.85 |
2000 |
0.4853 |
框架版本
- Transformers:4.31.0
- Pytorch:2.0.1 + cu118
- Datasets:2.14.4
- Tokenizers:0.13.3
📄 许可证
本项目采用 MIT 许可证。
属性 |
详情 |
模型类型 |
基于 microsoft/speecht5_tts 微调的文本转语音模型 |
训练数据 |
mozilla - foundation/common_voice_13_0 |
⚠️ 重要提示
此模型仅为 HF 音频课程实践练习的测试,不用于实际应用。
💡 使用建议
输入文本需为转写形式的俄语文本,可使用 transliterate
包进行转写。