🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm
本項目是一個自動語音識別模型,通過對大量盧森堡語語音數據進行微調訓練,能夠實現對盧森堡語語音的準確識別,為相關語音處理任務提供了有力支持。
🚀 快速開始
此部分文檔未提供快速開始的相關內容,你可以根據模型的使用說明進一步探索如何使用該模型。
✨ 主要特性
- 該模型基於wav2vec 2.0 large XLSR - 53進行微調,先使用從RTL.lu收集的842小時未標註盧森堡語語音數據進行預訓練,再在相同領域的14小時標註盧森堡語語音數據上進行微調。
- 模型在評估指標上表現良好,開發集的詞錯誤率(Dev WER)為11.68,測試集的詞錯誤率(Test WER)為10.71;開發集的字符錯誤率(Dev CER)為2.64,測試集的字符錯誤率(Test CER)為2.31。
📚 詳細文檔
模型描述
我們對wav2vec 2.0 large XLSR - 53檢查點進行了微調,使用從RTL.lu收集的842小時未標註盧森堡語語音數據。然後,該模型在來自相同領域的14小時標註盧森堡語語音數據上進行了微調。
預期用途與限制
文檔中未提供更多相關信息。
訓練和評估數據
文檔中未提供更多相關信息。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率(learning_rate):7.5e - 05
- 訓練批次大小(train_batch_size):3
- 評估批次大小(eval_batch_size):3
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):12
- 優化器(optimizer):Adam,β值為(0.9, 0.999),ε值為1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):2000
- 訓練輪數(num_epochs):50.0
- 混合精度訓練(mixed_precision_training):Native AMP
框架版本
- Transformers 4.20.0.dev0
- Pytorch 1.11.0 + cu113
- Datasets 2.2.1
- Tokenizers 0.12.1
引用
該模型是我們提交給IEEE SLT 2022研討會的論文IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS - LINGUAL SPEECH REPRESENTATIONS
的研究成果。
@misc{lb-wav2vec2,
author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
year = {2022},
copyright = {2023 IEEE}
}
📄 許可證
本模型採用MIT許可證。
📦 模型信息
屬性 |
詳情 |
模型類型 |
自動語音識別(automatic - speech - recognition) |
評估指標 |
詞錯誤率(wer)、字符錯誤率(cer) |
許可證 |
MIT |