🚀 sammy786/wav2vec2-xlsr-georgian
本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ka 數據集上的微調版本。它在評估集(訓練數據集的 10% 與其他和開發數據集合並而成)上取得了以下結果:
🚀 快速開始
評估命令
- 在
mozilla-foundation/common_voice_8_0
數據集的 test
分割上進行評估:
python eval.py --model_id sammy786/wav2vec2-xlsr-georgian --dataset mozilla-foundation/common_voice_8_0 --config ka --split test
✨ 主要特性
- 基於預訓練模型
facebook/wav2vec2-xls-r-1b
進行微調,適用於自動語音識別任務。
- 在多個數據集上進行了評估,展示了一定的性能指標。
📚 詳細文檔
模型描述
對 "facebook/wav2vec2-xls-r-1b" 進行了微調。
預期用途與限制
更多信息待補充。
訓練和評估數據
訓練數據:Common voice Finnish 的 train.tsv、dev.tsv 和 other.tsv 文件。
訓練過程
為創建訓練數據集,將所有可能的數據集進行合併,並採用 90 - 10 的分割比例。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):0.000045637994662983496
- 訓練批次大小(train_batch_size):8
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):13
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):32
- 優化器(optimizer):Adam,β=(0.9, 0.999),ε=1e - 08
- 學習率調度器類型(lr_scheduler_type):cosine_with_restarts
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):500
- 訓練輪數(num_epochs):30
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
步驟 |
訓練損失 |
驗證損失 |
詞錯誤率(Wer) |
200 |
4.152100 |
0.823672 |
0.967814 |
400 |
0.889500 |
0.196740 |
0.444792 |
600 |
0.493700 |
0.155659 |
0.366115 |
800 |
0.328000 |
0.138066 |
0.358069 |
1000 |
0.260600 |
0.119236 |
0.324989 |
1200 |
0.217200 |
0.114050 |
0.313366 |
1400 |
0.188800 |
0.112600 |
0.302190 |
1600 |
0.166900 |
0.111154 |
0.295485 |
1800 |
0.155500 |
0.109963 |
0.286544 |
2000 |
0.140400 |
0.107587 |
0.277604 |
2200 |
0.142600 |
0.105662 |
0.277157 |
2400 |
0.135400 |
0.105414 |
0.275369 |
框架版本
- Transformers:4.16.0.dev0
- Pytorch:1.10.0+cu102
- Datasets:1.17.1.dev0
- Tokenizers:0.10.3
🔧 技術細節
本模型是在預訓練模型 facebook/wav2vec2-xls-r-1b
的基礎上,使用 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ka 數據集進行微調。在訓練過程中,對多個超參數進行了調整,以達到較好的性能。通過將不同的數據集合並並進行分割,創建了訓練集和評估集。在訓練過程中,使用了 Adam 優化器和 cosine_with_restarts 學習率調度器,並採用了混合精度訓練來提高訓練效率。
📄 許可證
本模型採用 Apache-2.0 許可證。
📦 模型信息
屬性 |
詳情 |
模型類型 |
自動語音識別模型 |
訓練數據 |
Common voice Finnish 的 train.tsv、dev.tsv 和 other.tsv 文件 |
評估數據集 |
mozilla-foundation/common_voice_8_0、speech-recognition-community-v2/dev_data、speech-recognition-community-v2/eval_data |
評估指標 |
詞錯誤率(Wer)、字符錯誤率(CER) |
測試集 Wer |
在不同數據集上分別為 23.9、75.07、74.41 |
測試集 CER |
3.59 |