🚀 sammy786/wav2vec2-xlsr-chuvash
本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - cv 數據集上的微調版本。它在評估集(訓練數據集的 10% 與其他和開發數據集合並而成)上取得了以下結果:
🚀 快速開始
本模型是基於 facebook/wav2vec2-xls-r-1b
在特定數據集上微調得到,可用於自動語音識別任務。若要評估該模型在 mozilla-foundation/common_voice_8_0
數據集 test
分割上的表現,可使用以下命令:
python eval.py --model_id sammy786/wav2vec2-xlsr-chuvash --dataset mozilla-foundation/common_voice_8_0 --config cv --split test
✨ 主要特性
- 基於預訓練模型
facebook/wav2vec2-xls-r-1b
進行微調,在自動語音識別任務上有一定表現。
- 經過特定的訓練過程,在評估集上取得了相應的損失和字錯率指標。
📚 詳細文檔
模型描述
對 "facebook/wav2vec2-xls-r-1b" 進行了微調。
預期用途與限制
更多信息待補充。
訓練和評估數據
訓練數據為 Common voice Finnish 的 train.tsv
、dev.tsv
和 other.tsv
文件。
訓練過程
為創建訓練數據集,將所有可能的數據集進行合併,並採用 90 - 10 的分割方式。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):0.000045637994662983496
- 訓練批次大小(train_batch_size):8
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):13
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):32
- 優化器(optimizer):Adam,β=(0.9, 0.999),ε=1e - 08
- 學習率調度器類型(lr_scheduler_type):cosine_with_restarts
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):500
- 訓練輪數(num_epochs):30
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
步數 |
訓練損失 |
驗證損失 |
字錯率(Wer) |
200 |
6.559100 |
2.274687 |
1.000000 |
400 |
1.346100 |
0.508268 |
0.681995 |
600 |
0.797500 |
0.391174 |
0.572876 |
800 |
0.556300 |
0.308620 |
0.489283 |
1000 |
0.435800 |
0.273956 |
0.454014 |
1200 |
0.388700 |
0.311027 |
0.499415 |
1400 |
0.338300 |
0.243977 |
0.413874 |
1600 |
0.294000 |
0.214134 |
0.385230 |
1800 |
0.276000 |
0.245991 |
0.397311 |
2000 |
0.253900 |
0.208324 |
0.363016 |
2200 |
0.233600 |
0.222156 |
0.370811 |
2400 |
0.219700 |
0.202602 |
0.364186 |
2600 |
0.205000 |
0.241339 |
0.384451 |
2800 |
0.176000 |
0.263558 |
0.384061 |
3000 |
0.166700 |
0.211768 |
0.333398 |
3200 |
0.160600 |
0.198677 |
0.321512 |
3400 |
0.154600 |
0.208655 |
0.328722 |
3600 |
0.146800 |
0.188022 |
0.317810 |
3800 |
0.133200 |
0.181083 |
0.313133 |
4000 |
0.134200 |
0.190084 |
0.316251 |
4200 |
0.114200 |
0.193034 |
0.312159 |
4400 |
0.117300 |
0.194122 |
0.312354 |
4600 |
0.112300 |
0.191111 |
0.305534 |
4800 |
0.107800 |
0.185930 |
0.302611 |
5000 |
0.100400 |
0.178625 |
0.299883 |
5200 |
0.099800 |
0.176442 |
0.294622 |
5400 |
0.100800 |
0.177935 |
0.294427 |
5600 |
0.096300 |
0.182903 |
0.293843 |
5800 |
0.094200 |
0.181041 |
0.293453 |
6000 |
0.097600 |
0.179865 |
0.290725 |
6200 |
0.091600 |
0.180327 |
0.292868 |
6400 |
0.093100 |
0.180275 |
0.292284 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
📄 許可證
本模型使用 Apache-2.0 許可證。
模型信息表格
屬性 |
詳情 |
模型類型 |
基於 facebook/wav2vec2-xls-r-1b 微調的自動語音識別模型 |
訓練數據 |
Common voice Finnish 的 train.tsv 、dev.tsv 和 other.tsv 文件 |