🚀 wav2vec2-large-xls-r-300m-as-v9
本模型是在通用語音數據集(common_voice dataset)上對 facebook/wav2vec2-xls-r-300m 進行微調後的版本。它在自動語音識別任務中表現出色,為語音識別領域提供了有力的支持。
✨ 主要特性
- 多數據集適配:支持
mozilla-foundation/common_voice_8_0
等多個數據集。
- 多指標評估:使用 WER(詞錯誤率)和 CER(字符錯誤率)等指標進行評估。
📦 安裝指南
文檔未提供安裝步驟,跳過該章節。
💻 使用示例
文檔未提供代碼示例,跳過該章節。
📚 詳細文檔
模型信息
屬性 |
詳情 |
語言 |
as |
許可證 |
apache-2.0 |
標籤 |
automatic-speech-recognition、mozilla-foundation/common_voice_8_0、generated_from_trainer、as、robust-speech-event、model_for_talk、hf-asr-leaderboard |
數據集 |
mozilla-foundation/common_voice_8_0 |
模型評估結果
模型名稱
wav2vec2-large-xls-r-300m-as-v9
評估結果
任務 |
數據集 |
測試 WER |
測試 CER |
自動語音識別 |
Common Voice 8 (hsb) |
0.6163737676810973 |
0.19496397642093005 |
自動語音識別 |
Robust Speech Event - Dev Data (as) |
NA |
NA |
自動語音識別 |
Common Voice 8.0 (as) |
61.64 |
未提供 |
評估命令
- 在
mozilla-foundation/common_voice_8_0
測試集上進行評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-as-v9 --dataset mozilla-foundation/common_voice_8_0 --config as --split test --log_outputs
- 在
speech-recognition-community-v2/dev_data
上進行評估
⚠️ 重要提示
阿薩姆語(as)在 speech-recognition-community-v2/dev_data
數據集中不可用。
訓練超參數
- 學習率:0.000111
- 訓練批次大小:16
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:32
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:300
- 訓練輪數:200
- 混合精度訓練:Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
WER |
8.3852 |
10.51 |
200 |
3.6402 |
1.0 |
3.5374 |
21.05 |
400 |
3.3894 |
1.0 |
2.8645 |
31.56 |
600 |
1.3143 |
0.8303 |
1.1784 |
42.1 |
800 |
0.9417 |
0.6661 |
0.7805 |
52.62 |
1000 |
0.9292 |
0.6237 |
0.5973 |
63.15 |
1200 |
0.9489 |
0.6014 |
0.4784 |
73.67 |
1400 |
0.9916 |
0.5962 |
0.4138 |
84.21 |
1600 |
1.0272 |
0.6121 |
0.3491 |
94.72 |
1800 |
1.0412 |
0.5984 |
0.3062 |
105.26 |
2000 |
1.0769 |
0.6005 |
0.2707 |
115.77 |
2200 |
1.0708 |
0.5752 |
0.2459 |
126.31 |
2400 |
1.1285 |
0.6009 |
0.2234 |
136.82 |
2600 |
1.1209 |
0.5949 |
0.2035 |
147.36 |
2800 |
1.1348 |
0.5842 |
0.1876 |
157.87 |
3000 |
1.1480 |
0.5872 |
0.1669 |
168.41 |
3200 |
1.1496 |
0.5838 |
0.1595 |
178.92 |
3400 |
1.1721 |
0.5778 |
0.1505 |
189.46 |
3600 |
1.1654 |
0.5744 |
0.1486 |
199.97 |
3800 |
1.1679 |
0.5761 |
框架版本
- Transformers 4.16.1
- Pytorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0
🔧 技術細節
文檔未提供具體的技術實現細節,跳過該章節。
📄 許可證
本模型使用 apache-2.0
許可證。