🚀 wav2vec2-xls-r-300m-rm-vallader-d1 模型
本模型是基於MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - RM - VALLADER數據集對facebook/wav2vec2-xls-r-300m進行微調後的版本。它在自動語音識別任務中表現出色,為羅曼什 - 瓦拉德語的語音識別提供了有效的解決方案。
✨ 主要特性
- 基於預訓練模型
facebook/wav2vec2-xls-r-300m
進行微調,利用了大規模預訓練的優勢。
- 在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - RM - VALLADER數據集上進行訓練,適用於羅曼什 - 瓦拉德語的自動語音識別任務。
- 提供了評估命令和訓練超參數,方便復現和進一步優化。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
基於wav2vec2-xls-r-300m 微調的自動語音識別模型 |
訓練數據 |
mozilla-foundation/common_voice_8_0(RM - VALLADER) |
評估結果
本模型在評估集上取得了以下結果:
- 損失(Loss): 0.2754
- 詞錯誤率(Wer): 0.2831
評估命令
- 在
mozilla-foundation/common_voice_8_0
測試集上進行評估
python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-300m-rm-vallader-d1 --dataset mozilla-foundation/common_voice_8_0 --config rm-vallader --split test --log_outputs
- 在
speech-recognition-community-v2/dev_data
上進行評估
羅曼什 - 瓦拉德語在speech-recognition-community-v2/dev_data
中未找到。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate): 7.5e - 05
- 訓練批次大小(train_batch_size): 32
- 評估批次大小(eval_batch_size): 16
- 隨機種子(seed): 42
- 優化器(optimizer): Adam(betas=(0.9, 0.999),epsilon = 1e - 08)
- 學習率調度器類型(lr_scheduler_type): 線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps): 500
- 訓練輪數(num_epochs): 100.0
- 混合精度訓練(mixed_precision_training): 原生自動混合精度(Native AMP)
訓練結果
訓練損失(Training Loss) |
輪數(Epoch) |
步數(Step) |
驗證損失(Validation Loss) |
詞錯誤率(Wer) |
2.927 |
15.15 |
500 |
2.9196 |
1.0 |
1.3835 |
30.3 |
1000 |
0.5879 |
0.5866 |
0.7415 |
45.45 |
1500 |
0.3077 |
0.3316 |
0.5575 |
60.61 |
2000 |
0.2735 |
0.2954 |
0.4581 |
75.76 |
2500 |
0.2707 |
0.2802 |
0.3977 |
90.91 |
3000 |
0.2785 |
0.2809 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
🔧 技術細節
文檔未提供具體的技術實現細節,故跳過此章節。
📄 許可證
本模型使用Apache - 2.0許可證。