🚀 wav2vec2-large-xls-r-300m-hsb-v2
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - HSB數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在評估集上取得了以下成果,為自動語音識別任務提供了有效的解決方案。
✨ 主要特性
- 多語言支持:支持上索布語(hsb),適用於特定語言的語音識別場景。
- 微調優化:基於預訓練模型進行微調,在特定數據集上表現更優。
- 評估指標良好:在評估集上有較好的損失和WER指標。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
文檔未提供代碼示例,暫不展示。
📚 詳細文檔
評估命令
- 在mozilla - foundation/common_voice_8_0測試分割集上進行評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v2 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs
- 在speech - recognition - community - v2/dev_data上進行評估
上索布語(hsb)在speech - recognition - community - v2/dev_data中未找到。
訓練超參數
以下是訓練過程中使用的超參數:
屬性 |
詳情 |
學習率 |
0.00045 |
訓練批次大小 |
16 |
評估批次大小 |
8 |
隨機種子 |
42 |
梯度累積步數 |
2 |
總訓練批次大小 |
32 |
優化器 |
Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08) |
學習率調度器類型 |
線性 |
學習率調度器熱身步數 |
500 |
訓練輪數 |
50 |
混合精度訓練 |
原生AMP |
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
8.5979 |
3.23 |
100 |
3.5602 |
1.0 |
3.303 |
6.45 |
200 |
3.2238 |
1.0 |
3.2034 |
9.68 |
300 |
3.2002 |
0.9888 |
2.7986 |
12.9 |
400 |
1.2408 |
0.9210 |
1.3869 |
16.13 |
500 |
0.7973 |
0.7462 |
1.0228 |
19.35 |
600 |
0.6722 |
0.6788 |
0.8311 |
22.58 |
700 |
0.6100 |
0.6150 |
0.717 |
25.81 |
800 |
0.6236 |
0.6013 |
0.6264 |
29.03 |
900 |
0.6031 |
0.5575 |
0.5494 |
32.26 |
1000 |
0.5656 |
0.5309 |
0.4781 |
35.48 |
1100 |
0.5289 |
0.4996 |
0.4311 |
38.71 |
1200 |
0.5375 |
0.4768 |
0.3902 |
41.94 |
1300 |
0.5246 |
0.4703 |
0.3508 |
45.16 |
1400 |
0.5382 |
0.4696 |
0.3199 |
48.39 |
1500 |
0.5328 |
0.4596 |
框架版本
- Transformers 4.16.1
- Pytorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0
🔧 技術細節
本模型在評估集上取得了以下結果:
- 損失:0.5328
- 詞錯誤率(Wer):0.4596
模型評估結果詳情
任務 |
數據集 |
指標 |
值 |
自動語音識別 |
Common Voice 8(hsb) |
測試詞錯誤率(Test WER) |
0.4654228855721393 |
自動語音識別 |
Common Voice 8(hsb) |
測試字符錯誤率(Test CER) |
0.11351049990708047 |
自動語音識別 |
Robust Speech Event - Dev Data(hsb) |
測試詞錯誤率(Test WER) |
NA |
自動語音識別 |
Robust Speech Event - Dev Data(hsb) |
測試字符錯誤率(Test CER) |
NA |
📄 許可證
本項目採用Apache 2.0許可證。