🚀 wav2vec2-large-xls-r-300m-as-v9
本模型是在通用语音数据集(common_voice dataset)上对 facebook/wav2vec2-xls-r-300m 进行微调后的版本。它在自动语音识别任务中表现出色,为语音识别领域提供了有力的支持。
✨ 主要特性
- 多数据集适配:支持
mozilla-foundation/common_voice_8_0
等多个数据集。
- 多指标评估:使用 WER(词错误率)和 CER(字符错误率)等指标进行评估。
📦 安装指南
文档未提供安装步骤,跳过该章节。
💻 使用示例
文档未提供代码示例,跳过该章节。
📚 详细文档
模型信息
属性 |
详情 |
语言 |
as |
许可证 |
apache-2.0 |
标签 |
automatic-speech-recognition、mozilla-foundation/common_voice_8_0、generated_from_trainer、as、robust-speech-event、model_for_talk、hf-asr-leaderboard |
数据集 |
mozilla-foundation/common_voice_8_0 |
模型评估结果
模型名称
wav2vec2-large-xls-r-300m-as-v9
评估结果
任务 |
数据集 |
测试 WER |
测试 CER |
自动语音识别 |
Common Voice 8 (hsb) |
0.6163737676810973 |
0.19496397642093005 |
自动语音识别 |
Robust Speech Event - Dev Data (as) |
NA |
NA |
自动语音识别 |
Common Voice 8.0 (as) |
61.64 |
未提供 |
评估命令
- 在
mozilla-foundation/common_voice_8_0
测试集上进行评估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-as-v9 --dataset mozilla-foundation/common_voice_8_0 --config as --split test --log_outputs
- 在
speech-recognition-community-v2/dev_data
上进行评估
⚠️ 重要提示
阿萨姆语(as)在 speech-recognition-community-v2/dev_data
数据集中不可用。
训练超参数
- 学习率:0.000111
- 训练批次大小:16
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:2
- 总训练批次大小:32
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:300
- 训练轮数:200
- 混合精度训练:Native AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
WER |
8.3852 |
10.51 |
200 |
3.6402 |
1.0 |
3.5374 |
21.05 |
400 |
3.3894 |
1.0 |
2.8645 |
31.56 |
600 |
1.3143 |
0.8303 |
1.1784 |
42.1 |
800 |
0.9417 |
0.6661 |
0.7805 |
52.62 |
1000 |
0.9292 |
0.6237 |
0.5973 |
63.15 |
1200 |
0.9489 |
0.6014 |
0.4784 |
73.67 |
1400 |
0.9916 |
0.5962 |
0.4138 |
84.21 |
1600 |
1.0272 |
0.6121 |
0.3491 |
94.72 |
1800 |
1.0412 |
0.5984 |
0.3062 |
105.26 |
2000 |
1.0769 |
0.6005 |
0.2707 |
115.77 |
2200 |
1.0708 |
0.5752 |
0.2459 |
126.31 |
2400 |
1.1285 |
0.6009 |
0.2234 |
136.82 |
2600 |
1.1209 |
0.5949 |
0.2035 |
147.36 |
2800 |
1.1348 |
0.5842 |
0.1876 |
157.87 |
3000 |
1.1480 |
0.5872 |
0.1669 |
168.41 |
3200 |
1.1496 |
0.5838 |
0.1595 |
178.92 |
3400 |
1.1721 |
0.5778 |
0.1505 |
189.46 |
3600 |
1.1654 |
0.5744 |
0.1486 |
199.97 |
3800 |
1.1679 |
0.5761 |
框架版本
- Transformers 4.16.1
- Pytorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0
🔧 技术细节
文档未提供具体的技术实现细节,跳过该章节。
📄 许可证
本模型使用 apache-2.0
许可证。