🚀 XLS - R - 300M - 德語語音識別模型
本模型是基於自動語音識別技術的模型,在德語語音識別任務上進行了優化。它基於預訓練模型微調而來,能夠有效處理德語語音數據,為德語語音識別相關應用提供支持。
🚀 快速開始
本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - DE 數據集上的微調版本。它在評估集上取得了以下結果:
- 損失:0.1355
- 詞錯誤率(Wer):0.1532
📚 詳細文檔
模型描述
該模型是針對德語語音識別進行微調的版本,基於強大的預訓練模型,在德語語音數據集上進行了優化訓練。
預期用途與限制
目前文檔未提供相關詳細信息。
訓練和評估數據
目前文檔未提供相關詳細信息。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:7.5e - 05
- 訓練批次大小:8
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:4
- 總訓練批次大小:32
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:2000
- 訓練輪數:2.5
- 混合精度訓練:原生自動混合精度(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
1.0826 |
0.07 |
1000 |
0.4637 |
0.4654 |
1.118 |
0.15 |
2000 |
0.2595 |
0.2687 |
1.1268 |
0.22 |
3000 |
0.2635 |
0.2661 |
1.0919 |
0.29 |
4000 |
0.2417 |
0.2566 |
1.1013 |
0.37 |
5000 |
0.2414 |
0.2567 |
1.0898 |
0.44 |
6000 |
0.2546 |
0.2731 |
1.0808 |
0.51 |
7000 |
0.2399 |
0.2535 |
1.0719 |
0.59 |
8000 |
0.2353 |
0.2528 |
1.0446 |
0.66 |
9000 |
0.2427 |
0.2545 |
1.0347 |
0.73 |
10000 |
0.2266 |
0.2402 |
1.0457 |
0.81 |
11000 |
0.2290 |
0.2448 |
1.0124 |
0.88 |
12000 |
0.2295 |
0.2448 |
1.025 |
0.95 |
13000 |
0.2138 |
0.2345 |
1.0107 |
1.03 |
14000 |
0.2108 |
0.2294 |
0.9758 |
1.1 |
15000 |
0.2019 |
0.2204 |
0.9547 |
1.17 |
16000 |
0.2000 |
0.2178 |
0.986 |
1.25 |
17000 |
0.2018 |
0.2200 |
0.9588 |
1.32 |
18000 |
0.1992 |
0.2138 |
0.9413 |
1.39 |
19000 |
0.1898 |
0.2049 |
0.9339 |
1.47 |
20000 |
0.1874 |
0.2056 |
0.9268 |
1.54 |
21000 |
0.1797 |
0.1976 |
0.9194 |
1.61 |
22000 |
0.1743 |
0.1905 |
0.8987 |
1.69 |
23000 |
0.1738 |
0.1932 |
0.8884 |
1.76 |
24000 |
0.1703 |
0.1873 |
0.8939 |
1.83 |
25000 |
0.1633 |
0.1831 |
0.8629 |
1.91 |
26000 |
0.1549 |
0.1750 |
0.8607 |
1.98 |
27000 |
0.1550 |
0.1738 |
0.8316 |
2.05 |
28000 |
0.1512 |
0.1709 |
0.8321 |
2.13 |
29000 |
0.1481 |
0.1657 |
0.825 |
2.2 |
30000 |
0.1446 |
0.1627 |
0.8115 |
2.27 |
31000 |
0.1396 |
0.1583 |
0.7959 |
2.35 |
32000 |
0.1389 |
0.1569 |
0.7835 |
2.42 |
33000 |
0.1362 |
0.1545 |
0.7959 |
2.49 |
34000 |
0.1355 |
0.1531 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2 + cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
評估命令
- 在
mozilla - foundation/common_voice_8_0
數據集的 test
分割上進行評估
python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-1B-german --dataset mozilla-foundation/common_voice_8_0 --config de --split test --log_outputs
- 在測試開發數據上進行評估
python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-1B-german --dataset speech-recognition-community-v2/dev_data --config de --split validation --chunk_length_s 5.0 --stride_length_s 1.0
📄 許可證
本模型使用 Apache - 2.0 許可證。
🔍 模型指標
任務 |
數據集 |
測試詞錯誤率(WER) |
測試字符錯誤率(CER) |
自動語音識別 |
Common Voice 8 |
15.25 |
3.78 |
自動語音識別 |
Robust Speech Event - Dev Data |
35.29 |
13.83 |
自動語音識別 |
Robust Speech Event - Test Data |
36.2 |
- |