🚀 sammy786/wav2vec2-xlsr-estonian
該模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - et數據集上對facebook/wav2vec2 - xls - r - 1b進行微調後的版本。它在評估集(訓練數據集的10%與其他和開發數據集合並而成)上取得了以下結果:
- 損失值:17.94
- 詞錯誤率(Wer):30.38
✨ 主要特性
- 基於預訓練模型
facebook/wav2vec2-xls-r-1b
進行微調,適用於愛沙尼亞語的自動語音識別任務。
- 提供了詳細的訓練超參數和訓練結果,方便復現和參考。
📚 詳細文檔
模型描述
對“facebook/wav2vec2 - xls - r - 1b”進行了微調。
預期用途與限制
需要更多信息。
訓練和評估數據
訓練數據:Common voice芬蘭語的train.tsv、dev.tsv和other.tsv文件。
訓練過程
為創建訓練數據集,將所有可能的數據集進行拼接,並採用90 - 10的分割方式。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):0.000045637994662983496
- 訓練批次大小(train_batch_size):8
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):13
- 梯度累積步數(gradient_accumulation_steps):2
- 總訓練批次大小(total_train_batch_size):32
- 優化器(optimizer):Adam,β值為(0.9, 0.999),ε值為1e - 08
- 學習率調度器類型(lr_scheduler_type):cosine_with_restarts
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):500
- 訓練輪數(num_epochs):30
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
步驟 |
訓練損失 |
驗證損失 |
詞錯誤率(Wer) |
200 |
3.729100 |
1.096018 |
0.959867 |
400 |
0.996900 |
0.310228 |
0.443600 |
600 |
0.762900 |
0.210873 |
0.346117 |
800 |
0.621400 |
0.200381 |
0.331513 |
1000 |
0.408000 |
0.196382 |
0.322014 |
1200 |
0.320200 |
0.176281 |
0.312515 |
1400 |
0.315300 |
0.179433 |
0.303847 |
1600 |
0.445800 |
0.420985 |
0.315839 |
1800 |
0.644600 |
0.433833 |
0.354904 |
2000 |
0.550900 |
0.327117 |
0.336500 |
2200 |
0.498600 |
0.289830 |
0.325457 |
2400 |
0.488300 |
0.294309 |
0.314177 |
2600 |
0.491700 |
0.311175 |
0.318689 |
2800 |
0.508500 |
0.314744 |
0.320470 |
3000 |
0.499900 |
0.314834 |
0.320589 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0 + cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
評估命令
- 在
mozilla - foundation/common_voice_8_0
數據集的test
分割上進行評估:
python eval.py --model_id sammy786/wav2vec2-xlsr-estonian --dataset mozilla-foundation/common_voice_8_0 --config et --split test
📄 許可證
本項目採用Apache 2.0許可證。
模型指標信息
屬性 |
詳情 |
模型類型 |
自動語音識別模型 |
訓練數據 |
Common voice芬蘭語的train.tsv、dev.tsv和other.tsv文件 |