🚀 wav2vec2-large-xls-r-300m-sat-a3
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SAT數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它在自動語音識別任務中表現出色,能夠有效處理相關語音數據,為語音識別領域提供了有力支持。
📚 詳細文檔
模型信息
屬性 |
詳情 |
語言 |
sat |
許可證 |
apache - 2.0 |
標籤 |
automatic - speech - recognition、mozilla - foundation/common_voice_8_0、generated_from_trainer、sat、robust - speech - event、model_for_talk、hf - asr - leaderboard |
數據集 |
mozilla - foundation/common_voice_8_0 |
模型索引
- 名稱:wav2vec2 - large - xls - r - 300m - sat - a3
- 結果:
- 任務:
- 名稱:自動語音識別
- 類型:automatic - speech - recognition
- 數據集:
- 名稱:Common Voice 8
- 類型:mozilla - foundation/common_voice_8_0
- 參數:sat
- 指標:
- 名稱:Test WER
- 類型:wer
- 值:0.357429718875502
- 名稱:Test CER
- 類型:cer
- 值:0.14203730272596843
- 任務:
- 名稱:自動語音識別
- 類型:automatic - speech - recognition
- 數據集:
- 名稱:Robust Speech Event - Dev Data
- 類型:speech - recognition - community - v2/dev_data
- 參數:sat
- 指標:
- 名稱:Test WER
- 類型:wer
- 值:NA
- 名稱:Test CER
- 類型:cer
- 值:NA
評估結果
該模型在評估集上取得了以下結果:
- 損失:0.8961
- 字錯率(Wer):0.3976
評估命令
- 在mozilla - foundation/common_voice_8_0測試分割集上進行評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sat-a3 --dataset mozilla-foundation/common_voice_8_0 --config sat --split test --log_outputs
- 在speech - recognition - community - v2/dev_data上進行評估
⚠️ 重要提示
Santali (Ol Chiki)語言在speech - recognition - community - v2/dev_data中未找到。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:0.0004
- 訓練批次大小:16
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:32
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:200
- 訓練輪數:200
- 混合精度訓練:Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
字錯率(Wer) |
11.1266 |
33.29 |
100 |
2.8577 |
1.0 |
2.1549 |
66.57 |
200 |
1.0799 |
0.5542 |
0.5628 |
99.86 |
300 |
0.7973 |
0.4016 |
0.0779 |
133.29 |
400 |
0.8424 |
0.4177 |
0.0404 |
166.57 |
500 |
0.9048 |
0.4137 |
0.0212 |
199.86 |
600 |
0.8961 |
0.3976 |
框架版本
- Transformers:4.16.2
- Pytorch:1.10.0 + cu111
- Datasets:1.18.3
- Tokenizers:0.11.0
📄 許可證
本模型採用apache - 2.0許可證。