🚀 Akashpb13/Galician_xlsr
本模型是基於MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - hu數據集對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它在評估集(訓練數據集的10%,與無效數據、報告數據、其他數據和開發數據集合並)上取得了以下結果:
- 損失值:0.137096
- 字錯率(WER):0.196230
✨ 主要特性
- 基於
facebook/wav2vec2 - xls - r - 300m
模型微調,適用於加利西亞語的自動語音識別任務。
- 在多個數據集上進行了評估,具有一定的準確性和魯棒性。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型描述
對"facebook/wav2vec2 - xls - r - 300m"進行了微調。
預期用途與限制
更多信息待補充。
訓練和評估數據
- 訓練數據:Common voice加利西亞語的
train.tsv
、dev.tsv
、invalidated.tsv
、reported.tsv
和other.tsv
。僅考慮那些贊成票多於反對票的點,並且在合併Common voice 7.0中給出的所有數據集後去除了重複項。
訓練過程
為創建訓練數據集,將所有可能的數據集進行了拼接,並採用了90 - 10的分割方式。
訓練超參數
訓練期間使用了以下超參數:
- 學習率(learning_rate):0.000096
- 訓練批次大小(train_batch_size):16
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):13
- 梯度累積步數(gradient_accumulation_steps):2
- 學習率調度器類型(lr_scheduler_type):cosine_with_restarts
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):500
- 訓練輪數(num_epochs):100
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
步數 |
訓練損失 |
驗證損失 |
字錯率(Wer) |
500 |
5.038100 |
3.035432 |
1.000000 |
1000 |
2.180000 |
0.406300 |
0.557964 |
1500 |
0.331700 |
0.153797 |
0.262394 |
2000 |
0.171600 |
0.145268 |
0.235627 |
2500 |
0.125900 |
0.136622 |
0.228087 |
3000 |
0.105400 |
0.131650 |
0.224128 |
3500 |
0.087600 |
0.141032 |
0.217531 |
4000 |
0.078300 |
0.143675 |
0.214515 |
4500 |
0.070000 |
0.144607 |
0.208106 |
5000 |
0.061500 |
0.135259 |
0.202828 |
5500 |
0.055600 |
0.130638 |
0.203959 |
6000 |
0.050500 |
0.137416 |
0.202451 |
6500 |
0.046600 |
0.140379 |
0.200000 |
7000 |
0.040800 |
0.140179 |
0.200377 |
7500 |
0.041000 |
0.138089 |
0.196795 |
8000 |
0.038400 |
0.136927 |
0.197172 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.18.3
- Tokenizers 0.10.3
評估命令
- 在
mozilla - foundation/common_voice_8_0
數據集的test
分割上進行評估:
python eval.py --model_id Akashpb13/Galician_xlsr --dataset mozilla - foundation/common_voice_8_0 --config gl --split test
🔧 技術細節
模型指標
任務 |
數據集 |
指標 |
值 |
自動語音識別 |
Common Voice 8 (kmr) |
測試字錯率(Test WER) |
0.11308483789555426 |
自動語音識別 |
Common Voice 8 (kmr) |
測試字符錯誤率(Test CER) |
0.023982371794871796 |
自動語音識別 |
Robust Speech Event - Dev Data (gl) |
測試字錯率(Test WER) |
0.11308483789555426 |
自動語音識別 |
Robust Speech Event - Dev Data (gl) |
測試字符錯誤率(Test CER) |
0.023982371794871796 |
自動語音識別 |
Common Voice 8.0 (gl) |
測試字錯率(Test WER) |
11.31 |
自動語音識別 |
Robust Speech Event - Test Data (gl) |
測試字錯率(Test WER) |
39.05 |
📄 許可證
本模型採用Apache - 2.0許可證。