🚀 sammy786/wav2vec2-xlsr-czech
這個模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - cs 數據集上的微調版本。它在評估集(訓練數據集的 10% 與其他和開發數據集合並)上取得了以下結果:
✨ 主要特性
- 基於預訓練模型
facebook/wav2vec2-xls-r-1b
進行微調,適用於捷克語的自動語音識別任務。
- 在多個數據集上進行評估,展示了不同場景下的性能指標。
📦 安裝指南
文檔未提供安裝步驟,跳過此章節。
💻 使用示例
文檔未提供代碼示例,跳過此章節。
📚 詳細文檔
模型描述
對 "facebook/wav2vec2-xls-r-1b" 進行了微調。
預期用途與限制
需要更多信息。
訓練和評估數據
訓練數據 - 通用語音芬蘭語的 train.tsv、dev.tsv、invalidated.tsv 和 other.tsv 文件。
訓練過程
為創建訓練數據集,將所有可能的數據集進行合併,並採用 90 - 10 的分割方式。
訓練超參數
訓練期間使用了以下超參數:
- 學習率:0.000045637994662983496
- 訓練批次大小:8
- 評估批次大小:16
- 隨機種子:13
- 梯度累積步數:4
- 總訓練批次大小:32
- 優化器:Adam,β=(0.9, 0.999),ε=1e - 08
- 學習率調度器類型:帶重啟的餘弦調度器
- 學習率調度器熱身步數:500
- 訓練輪數:7
- 混合精度訓練:原生自動混合精度(Native AMP)
訓練結果
步驟 |
訓練損失 |
驗證損失 |
字錯率(Wer) |
200 |
6.654600 |
3.329486 |
1.000000 |
400 |
1.700600 |
0.317266 |
0.409446 |
600 |
0.767400 |
0.211371 |
0.313981 |
800 |
0.718600 |
0.167771 |
0.280676 |
1000 |
0.661700 |
0.142229 |
0.258938 |
1200 |
0.594400 |
0.137321 |
0.256275 |
1400 |
0.583900 |
0.132922 |
0.248418 |
1600 |
0.565100 |
0.117214 |
0.238640 |
1800 |
0.369600 |
0.116954 |
0.238291 |
2000 |
0.292800 |
0.109973 |
0.227509 |
2200 |
0.255400 |
0.104955 |
0.228120 |
2400 |
0.266800 |
0.097268 |
0.220525 |
2600 |
0.232700 |
0.096055 |
0.213584 |
2800 |
0.213700 |
0.097770 |
0.218866 |
3000 |
0.209900 |
0.091633 |
0.210485 |
3200 |
0.196800 |
0.090342 |
0.208739 |
3400 |
0.200500 |
0.082326 |
0.204767 |
3600 |
0.176800 |
0.085491 |
0.204068 |
3800 |
0.170000 |
0.081289 |
0.201231 |
4000 |
0.166200 |
0.080762 |
0.200227 |
4200 |
0.161700 |
0.076671 |
0.198001 |
4400 |
0.147000 |
0.077383 |
0.196997 |
4600 |
0.141900 |
0.076057 |
0.195862 |
4800 |
0.144800 |
0.074612 |
0.195120 |
5000 |
0.138900 |
0.073138 |
0.193985 |
5200 |
0.143900 |
0.072802 |
0.192894 |
5400 |
0.131100 |
0.072764 |
0.193723 |
5600 |
0.137000 |
0.072697 |
0.193679 |
5800 |
0.133300 |
0.072651 |
0.193286 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
評估命令
- 在
mozilla-foundation/common_voice_8_0
數據集的 test
分割上進行評估
python eval.py --model_id sammy786/wav2vec2-xlsr-czech --dataset mozilla-foundation/common_voice_8_0 --config cs --split test
🔧 技術細節
文檔未提供足夠詳細的技術實現細節(具體技術說明少於 50 字),跳過此章節。
📄 許可證
本項目採用 Apache 2.0 許可證。