🚀 XLS - R - 300M 吉尔吉斯语 CV8
此模型是基于自动语音识别技术的模型,在吉尔吉斯语语音处理方面有一定表现,通过在特定数据集上微调,能为低保真度语音应用场景提供支持。
🚀 快速开始
该模型是 facebook/wav2vec2 - xls - r - 300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - KY 数据集上的微调版本。它在验证集上取得了以下结果:
- 损失值:0.5497
- 词错误率(Wer):0.2945
- 字符错误率(Cer):0.0791
✨ 主要特性
模型描述
关于模型架构的描述,请参考 facebook/wav2vec2 - xls - r - 300m。
模型的词汇表由去除标点的西里尔字母组成。
kenlm 语言模型是使用训练和无效语料库分割的文本构建的。
预期用途和限制
该模型预计对以下低保真度用例有一定帮助:
该模型不够可靠,不能用作无障碍目的的实时字幕替代品,并且不应以侵犯 Common Voice 数据集的任何贡献者或任何其他说话者隐私的方式使用。
训练和评估数据
使用了通用语音官方分割的 train
、dev
和 other
的组合作为训练数据。官方 test
分割的一半用作验证数据,完整的 test
集用于最终评估。
训练过程
在对吉尔吉斯语 CV8 示例句子调整最终的 CTC/LM 层时,XLS - R 模型的特征化层被冻结。使用了斜坡学习率,初始热身阶段为 500 步,最大值为 0.0001,并在剩余的 8100 步(300 个 epoch)中逐渐冷却至 0。
训练超参数
训练期间使用了以下超参数:
属性 |
详情 |
学习率 |
0.0001 |
训练批次大小 |
32 |
评估批次大小 |
8 |
随机种子 |
42 |
梯度累积步数 |
4 |
总训练批次大小 |
128 |
优化器 |
Adam,β=(0.9, 0.999),ε = 1e - 08 |
学习率调度器类型 |
线性 |
学习率调度器热身步数 |
500 |
训练轮数 |
300.0 |
混合精度训练 |
原生 AMP |
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(Wer) |
字符错误率(Cer) |
3.1079 |
18.51 |
500 |
2.6795 |
0.9996 |
0.9825 |
0.8506 |
37.04 |
1000 |
0.4323 |
0.3718 |
0.0961 |
0.6821 |
55.55 |
1500 |
0.4105 |
0.3311 |
0.0878 |
0.6091 |
74.07 |
2000 |
0.4281 |
0.3168 |
0.0851 |
0.5429 |
92.58 |
2500 |
0.4525 |
0.3147 |
0.0842 |
0.5063 |
111.11 |
3000 |
0.4619 |
0.3144 |
0.0839 |
0.4661 |
129.62 |
3500 |
0.4660 |
0.3039 |
0.0818 |
0.4353 |
148.15 |
4000 |
0.4695 |
0.3083 |
0.0820 |
0.4048 |
166.65 |
4500 |
0.4909 |
0.3085 |
0.0824 |
0.3852 |
185.18 |
5000 |
0.5074 |
0.3048 |
0.0812 |
0.3567 |
203.69 |
5500 |
0.5111 |
0.3012 |
0.0810 |
0.3451 |
222.22 |
6000 |
0.5225 |
0.2982 |
0.0804 |
0.325 |
240.73 |
6500 |
0.5270 |
0.2955 |
0.0796 |
0.3089 |
259.25 |
7000 |
0.5381 |
0.2929 |
0.0793 |
0.2941 |
277.76 |
7500 |
0.5565 |
0.2923 |
0.0794 |
0.2945 |
296.29 |
8000 |
0.5495 |
0.2951 |
0.0789 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2 + cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 许可证
本项目采用 Apache - 2.0 许可证。