🚀 wav2vec2-large-xls-r-300m-el模型
本模型是基於自動語音識別技術的模型,在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - EL數據集上微調了[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)模型,能夠在語音識別任務中取得較好的效果。
🚀 快速開始
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - EL數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它在評估集上取得了以下結果:
- 損失值:0.3218
- 詞錯誤率(Wer):0.3095
✨ 主要特性
- 基於預訓練模型[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調,在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - EL數據集上表現良好。
- 提供了使用語言模型(LM)和不使用語言模型的評估結果。
📦 安裝指南
文檔未提及安裝相關內容,可參考Hugging Face平臺的通用安裝方式。
💻 使用示例
基礎用法
如何使用eval.py
進行評估:
huggingface-cli login # 登錄Hugging Face以獲取訪問Common Voice v8的認證令牌
# 使用語言模型運行
!python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-el --dataset mozilla-foundation/common_voice_8_0 --config el --split test
# 不使用語言模型運行
!python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-el --dataset mozilla-foundation/common_voice_8_0 --config el --split test --greedy
📚 詳細文檔
訓練和評估數據
評估在Notebook中進行,你可以在倉庫中的notebook_evaluation_wav2vec2_el.ipynb
查看。
測試不使用語言模型的詞錯誤率(WER)和字符錯誤率(CER):
- 詞錯誤率(wer) = 31.1294 %
- 字符錯誤率(cer) = 7.9509 %
測試使用語言模型的詞錯誤率(WER)和字符錯誤率(CER):
- 詞錯誤率(wer) = 20.7340 %
- 字符錯誤率(cer) = 6.0466 %
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:5e - 05
- 訓練批次大小:32
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:64
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:400
- 訓練輪數:80.0
- 混合精度訓練:原生自動混合精度(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
6.3683 |
8.77 |
500 |
3.1280 |
1.0 |
1.9915 |
17.54 |
1000 |
0.6600 |
0.6444 |
0.6565 |
26.32 |
1500 |
0.4208 |
0.4486 |
0.4484 |
35.09 |
2000 |
0.3885 |
0.4006 |
0.3573 |
43.86 |
2500 |
0.3548 |
0.3626 |
0.3063 |
52.63 |
3000 |
0.3375 |
0.3430 |
0.2751 |
61.4 |
3500 |
0.3359 |
0.3241 |
0.2511 |
70.18 |
4000 |
0.3222 |
0.3108 |
0.2361 |
78.95 |
4500 |
0.3205 |
0.3084 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技術細節
本模型在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - EL數據集上微調了[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)模型。通過調整一系列超參數,如學習率、批次大小等,在評估集上取得了較好的性能。同時,提供了使用語言模型和不使用語言模型的評估方式,以滿足不同場景的需求。
📄 許可證
本模型使用Apache - 2.0許可證。
📋 模型信息
屬性 |
詳情 |
模型類型 |
自動語音識別模型 |
訓練數據 |
mozilla - foundation/common_voice_8_0 |