🚀 XLS-R-300M Uzbek CV8
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - UZ数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在验证集上取得了以下成果:
- 损失率:0.3063
- 词错误率(Wer):0.3852
- 字符错误率(Cer):0.0777
✨ 主要特性
- 标签信息:具备自动语音识别、从训练器生成、HF语音识别排行榜、基于Mozilla基金会Common Voice 8.0数据集、鲁棒语音事件等相关标签。
- 数据集:使用了Mozilla基金会的Common Voice 8.0数据集。
- 基础模型:基于facebook的wav2vec2 - xls - r - 300m模型。
- 评估指标:在测试集上,使用语言模型(LM)时,词错误率(Wer)为15.065,字符错误率(Cer)为3.077;不使用语言模型时,词错误率为32.88,字符错误率为6.53。
📚 详细文档
模型描述
关于模型架构的描述,请参考facebook/wav2vec2 - xls - r - 300m。
模型词汇表由乌兹别克语现代拉丁字母组成,且去除了标点符号。需要注意的是,字符 <‘> 和 <’> 不算作标点符号,因为 <‘> 用于修饰 <o> 和 <g>,而 <’> 表示声门塞音或长元音。
解码器使用了基于Common Voice文本构建的kenlm语言模型。
预期用途与局限性
该模型预计在低保真度用例中具有一定的实用性,例如:
该模型不够可靠,不能作为无障碍实时字幕的替代品,并且不应以侵犯Common Voice数据集贡献者或其他说话者隐私的方式使用。
训练和评估数据
- 训练数据:使用了
train
公共语音官方分割集的50%。
- 验证数据:使用了官方
dev
分割集的50%。
- 最终评估数据:无语言模型的模型在完整的
test
集上进行最终评估,而有语言模型的模型仅在test
集中的500个示例上进行评估。
kenlm语言模型是从训练集和其他数据集分割的目标句子编译而来的。
训练超参数
训练期间使用了以下超参数:
- 学习率:3e - 05
- 训练批次大小:32
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:128
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:500
- 训练轮数:100.0
- 混合精度训练:原生自动混合精度(Native AMP)
训练结果
训练损失率 |
轮数 |
步数 |
验证损失率 |
词错误率(Wer) |
字符错误率(Cer) |
3.1401 |
3.25 |
500 |
3.1146 |
1.0 |
1.0 |
2.7484 |
6.49 |
1000 |
2.2842 |
1.0065 |
0.7069 |
1.0899 |
9.74 |
1500 |
0.5414 |
0.6125 |
0.1351 |
0.9465 |
12.99 |
2000 |
0.4566 |
0.5635 |
0.1223 |
0.8771 |
16.23 |
2500 |
0.4212 |
0.5366 |
0.1161 |
0.8346 |
19.48 |
3000 |
0.3994 |
0.5144 |
0.1102 |
0.8127 |
22.73 |
3500 |
0.3819 |
0.4944 |
0.1051 |
0.7833 |
25.97 |
4000 |
0.3705 |
0.4798 |
0.1011 |
0.7603 |
29.22 |
4500 |
0.3661 |
0.4704 |
0.0992 |
0.7424 |
32.47 |
5000 |
0.3529 |
0.4577 |
0.0957 |
0.7251 |
35.71 |
5500 |
0.3410 |
0.4473 |
0.0928 |
0.7106 |
38.96 |
6000 |
0.3401 |
0.4428 |
0.0919 |
0.7027 |
42.21 |
6500 |
0.3355 |
0.4353 |
0.0905 |
0.6927 |
45.45 |
7000 |
0.3308 |
0.4296 |
0.0885 |
0.6828 |
48.7 |
7500 |
0.3246 |
0.4204 |
0.0863 |
0.6706 |
51.95 |
8000 |
0.3250 |
0.4233 |
0.0868 |
0.6629 |
55.19 |
8500 |
0.3264 |
0.4159 |
0.0849 |
0.6556 |
58.44 |
9000 |
0.3213 |
0.4100 |
0.0835 |
0.6484 |
61.69 |
9500 |
0.3182 |
0.4124 |
0.0837 |
0.6407 |
64.93 |
10000 |
0.3171 |
0.4050 |
0.0825 |
0.6375 |
68.18 |
10500 |
0.3150 |
0.4039 |
0.0822 |
0.6363 |
71.43 |
11000 |
0.3129 |
0.3991 |
0.0810 |
0.6307 |
74.67 |
11500 |
0.3114 |
0.3986 |
0.0807 |
0.6232 |
77.92 |
12000 |
0.3103 |
0.3895 |
0.0790 |
0.6216 |
81.17 |
12500 |
0.3086 |
0.3891 |
0.0790 |
0.6174 |
84.41 |
13000 |
0.3082 |
0.3881 |
0.0785 |
0.6196 |
87.66 |
13500 |
0.3059 |
0.3875 |
0.0782 |
0.6174 |
90.91 |
14000 |
0.3084 |
0.3862 |
0.0780 |
0.6169 |
94.16 |
14500 |
0.3070 |
0.3860 |
0.0779 |
0.6166 |
97.4 |
15000 |
0.3066 |
0.3855 |
0.0778 |
框架版本
- Transformers:4.16.2
- Pytorch:1.10.2 + cu102
- Datasets:1.18.3
- Tokenizers:0.11.0
📄 许可证
本项目采用Apache - 2.0许可证。