🚀 Akashpb13/xlsr_hungarian_new
本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - hu數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它在評估集(訓練數據集的10%與無效數據、報告數據、其他數據和開發數據集合並而成)上取得了以下成果:
- 損失值:0.197464
- 詞錯誤率(Wer):0.330094
✨ 主要特性
- 多數據集評估:在多個數據集上進行自動語音識別任務的評估,包括Common Voice 8和Robust Speech Event的開發與測試數據。
- 明確的評估指標:提供了詞錯誤率(WER)和字符錯誤率(CER)等評估指標。
📦 安裝指南
文檔未提供安裝步驟,暫不展示。
💻 使用示例
基礎用法
若要在mozilla - foundation/common_voice_8_0
數據集的test
分割上進行評估,可使用以下命令:
python eval.py --model_id Akashpb13/xlsr_hungarian_new --dataset mozilla - foundation/common_voice_8_0 --config hu --split test
📚 詳細文檔
模型描述
對“facebook/wav2vec2 - xls - r - 300m”進行了微調。
預期用途與限制
需要更多相關信息。
訓練和評估數據
- 訓練數據:Common voice匈牙利語的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv。僅考慮那些贊成票多於反對票的點,並且在合併Common voice 7.0中給出的所有數據集後去除了重複項。
訓練過程
為創建訓練數據集,將所有可能的數據集進行了拼接,並採用了90 - 10的分割方式。
訓練超參數
訓練期間使用了以下超參數:
- 學習率:0.000095637994662983496
- 訓練批次大小:16
- 評估批次大小:16
- 隨機種子:13
- 梯度累積步數:16
- 學習率調度器類型:cosine_with_restarts
- 學習率調度器熱身步數:500
- 訓練輪數:100
- 混合精度訓練:Native AMP
訓練結果
步數 |
訓練損失 |
驗證損失 |
詞錯誤率(Wer) |
500 |
4.785300 |
0.952295 |
0.796236 |
1000 |
0.535800 |
0.217474 |
0.381613 |
1500 |
0.258400 |
0.205524 |
0.345056 |
2000 |
0.202800 |
0.198680 |
0.336264 |
2500 |
0.182700 |
0.197464 |
0.330094 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.18.3
- Tokenizers 0.10.3
🔧 技術細節
模型評估指標
任務 |
數據集 |
評估指標 |
值 |
自動語音識別 |
Common Voice 8 |
測試詞錯誤率(Test WER) |
0.2851621517163838 |
自動語音識別 |
Common Voice 8 |
測試字符錯誤率(Test CER) |
0.06112982522287432 |
自動語音識別 |
Robust Speech Event - Dev Data |
測試詞錯誤率(Test WER) |
0.2851621517163838 |
自動語音識別 |
Robust Speech Event - Dev Data |
測試字符錯誤率(Test CER) |
0.06112982522287432 |
自動語音識別 |
Robust Speech Event - Test Data |
測試詞錯誤率(Test WER) |
47.15 |
📄 許可證
本模型使用的許可證為Apache - 2.0。