🚀 wav2vec2-large-xls-r-300m-or-d5
該模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - OR數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在自動語音識別任務中表現出色,能有效處理語音數據並輸出準確的識別結果。
✨ 主要特性
- 基於預訓練模型
facebook/wav2vec2 - xls - r - 300m
進行微調,繼承了強大的語音特徵提取能力。
- 在多個數據集上進行評估,如Common Voice 8和Robust Speech Event - Dev Data,展現出良好的泛化能力。
📦 安裝指南
文檔未提供安裝步驟,暫不展示。
💻 使用示例
文檔未提供代碼示例,暫不展示。
📚 詳細文檔
評估指標
該模型在評估集上取得了以下結果:
- 損失值(Loss): 0.9571
- 詞錯誤率(Wer): 0.5450
評估命令
- 在
mozilla - foundation/common_voice_8_0
測試集上進行評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-or-d5 --dataset mozilla-foundation/common_voice_8_0 --config or --split test --log_outputs
- 在
speech - recognition - community - v2/dev_data
上進行評估
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-or-d5 --dataset speech-recognition-community-v2/dev_data --config or --split validation --chunk_length_s 10 --stride_length_s 1
訓練超參數
以下是訓練過程中使用的超參數:
屬性 |
詳情 |
學習率(learning_rate) |
0.000111 |
訓練批次大小(train_batch_size) |
16 |
評估批次大小(eval_batch_size) |
8 |
隨機種子(seed) |
42 |
梯度累積步數(gradient_accumulation_steps) |
2 |
總訓練批次大小(total_train_batch_size) |
32 |
優化器(optimizer) |
Adam(betas=(0.9, 0.999),epsilon = 1e - 08) |
學習率調度器類型(lr_scheduler_type) |
linear |
學習率調度器熱身步數(lr_scheduler_warmup_steps) |
800 |
訓練輪數(num_epochs) |
200 |
混合精度訓練(mixed_precision_training) |
Native AMP |
訓練結果
訓練損失(Training Loss) |
輪數(Epoch) |
步數(Step) |
驗證損失(Validation Loss) |
詞錯誤率(Wer) |
9.2958 |
12.5 |
300 |
4.9014 |
1.0 |
3.4065 |
25.0 |
600 |
3.5150 |
1.0 |
1.5402 |
37.5 |
900 |
0.8356 |
0.7249 |
0.6049 |
50.0 |
1200 |
0.7754 |
0.6349 |
0.4074 |
62.5 |
1500 |
0.7994 |
0.6217 |
0.3097 |
75.0 |
1800 |
0.8815 |
0.5985 |
0.2593 |
87.5 |
2100 |
0.8532 |
0.5754 |
0.2097 |
100.0 |
2400 |
0.9077 |
0.5648 |
0.1784 |
112.5 |
2700 |
0.9047 |
0.5668 |
0.1567 |
125.0 |
3000 |
0.9019 |
0.5728 |
0.1315 |
137.5 |
3300 |
0.9295 |
0.5827 |
0.1125 |
150.0 |
3600 |
0.9256 |
0.5681 |
0.1035 |
162.5 |
3900 |
0.9148 |
0.5496 |
0.0901 |
175.0 |
4200 |
0.9480 |
0.5483 |
0.0817 |
187.5 |
4500 |
0.9799 |
0.5516 |
0.079 |
200.0 |
4800 |
0.9571 |
0.5450 |
框架版本
- Transformers 4.16.2
- Pytorch 1.10.0+cu111
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技術細節
文檔未提供具體的技術實現細節,暫不展示。
📄 許可證
該模型使用Apache 2.0許可證。