🚀 sammy786/wav2vec2-xlsr-lithuanian
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - lt數據集上對facebook/wav2vec2 - xls - r - 1b進行微調後的版本。它在評估集(訓練數據集的10%與其他和開發數據集合並而成)上取得了以下結果:
- 損失:13.1811
- 字錯率(Wer):24.2570
✨ 主要特性
- 基於預訓練模型
facebook/wav2vec2 - xls - r - 1b
進行微調,適用於立陶宛語的自動語音識別任務。
- 訓練過程中使用了多種優化策略,如特定的學習率調度和混合精度訓練,以提高模型性能。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型描述
對“facebook/wav2vec2 - xls - r - 1b”進行了微調。
預期用途與限制
需要更多信息。
訓練和評估數據
訓練數據為Common voice芬蘭語的train.tsv、dev.tsv和other.tsv文件。
訓練過程
為創建訓練數據集,將所有可能的數據集進行合併,並採用了90 - 10的分割方式。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):0.000045637994662983496
- 訓練批次大小(train_batch_size):8
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):13
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):32
- 優化器(optimizer):Adam,β值為(0.9, 0.999),ε值為1e - 08
- 學習率調度器類型(lr_scheduler_type):cosine_with_restarts
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):500
- 訓練輪數(num_epochs):40
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
步數 |
訓練損失 |
驗證損失 |
字錯率(Wer) |
200 |
5.718700 |
2.897032 |
1.000000 |
400 |
1.340000 |
0.309548 |
0.507284 |
600 |
0.799100 |
0.220205 |
0.402098 |
800 |
0.494400 |
0.185093 |
0.352855 |
1000 |
0.370800 |
0.165869 |
0.334207 |
1200 |
0.312500 |
0.159801 |
0.324009 |
1400 |
0.276100 |
0.148066 |
0.321678 |
1600 |
0.250100 |
0.153748 |
0.311626 |
1800 |
0.226400 |
0.147437 |
0.302885 |
2000 |
0.206900 |
0.141176 |
0.296037 |
2200 |
0.189900 |
0.142161 |
0.288170 |
2400 |
0.192100 |
0.138029 |
0.286568 |
2600 |
0.175600 |
0.139496 |
0.283654 |
2800 |
0.156900 |
0.138609 |
0.283217 |
3000 |
0.149400 |
0.140468 |
0.281906 |
3200 |
0.144600 |
0.132472 |
0.278263 |
3400 |
0.144100 |
0.141028 |
0.277535 |
3600 |
0.133000 |
0.134287 |
0.275495 |
3800 |
0.126600 |
0.149136 |
0.277681 |
4000 |
0.123500 |
0.132180 |
0.266463 |
4200 |
0.113000 |
0.137942 |
0.268211 |
4400 |
0.111700 |
0.140038 |
0.272873 |
4600 |
0.108600 |
0.136756 |
0.264132 |
4800 |
0.103600 |
0.137541 |
0.263403 |
5000 |
0.098000 |
0.140435 |
0.264860 |
5200 |
0.095800 |
0.136950 |
0.262383 |
5400 |
0.094000 |
0.128214 |
0.263986 |
5600 |
0.085300 |
0.125024 |
0.259761 |
5800 |
0.078900 |
0.128575 |
0.260198 |
6000 |
0.083300 |
0.135496 |
0.258887 |
6200 |
0.078800 |
0.131706 |
0.259178 |
6400 |
0.073800 |
0.128451 |
0.255390 |
6600 |
0.072600 |
0.131245 |
0.252768 |
6800 |
0.073300 |
0.131525 |
0.249417 |
7000 |
0.069000 |
0.128627 |
0.255536 |
7200 |
0.064400 |
0.127767 |
0.250583 |
7400 |
0.065400 |
0.129557 |
0.247815 |
7600 |
0.061200 |
0.129734 |
0.250146 |
7800 |
0.059100 |
0.135124 |
0.249709 |
8000 |
0.057000 |
0.132850 |
0.249126 |
8200 |
0.056100 |
0.128827 |
0.248252 |
8400 |
0.056400 |
0.130229 |
0.246795 |
8600 |
0.052800 |
0.128939 |
0.245775 |
8800 |
0.051100 |
0.131892 |
0.248543 |
9000 |
0.052900 |
0.132062 |
0.244464 |
9200 |
0.048200 |
0.130988 |
0.244172 |
9400 |
0.047700 |
0.131811 |
0.242570 |
9600 |
0.050000 |
0.133832 |
0.245484 |
9800 |
0.047500 |
0.134340 |
0.243881 |
10000 |
0.048400 |
0.133388 |
0.243590 |
10200 |
0.047800 |
0.132729 |
0.244464 |
10400 |
0.049000 |
0.131695 |
0.245047 |
10600 |
0.044400 |
0.132154 |
0.245484 |
10800 |
0.050100 |
0.131575 |
0.245192 |
11000 |
0.047700 |
0.131211 |
0.245192 |
11200 |
0.046000 |
0.131293 |
0.245047 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0 + cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
評估命令
- 在
mozilla - foundation/common_voice_8_0
數據集的test
分割上進行評估:
python eval.py --model_id sammy786/wav2vec2-xlsr-lithuanian --dataset mozilla-foundation/common_voice_8_0 --config lt --split test
🔧 技術細節
文檔未提供足夠的技術實現細節(少於50字的具體技術說明),故跳過此章節。
📄 許可證
本模型採用Apache - 2.0許可證。