🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-4h
本項目是一個自動語音識別模型,通過對大量盧森堡語語音數據進行微調訓練,可用於盧森堡語的語音識別任務,為相關領域提供了有效的技術支持。
🚀 快速開始
此部分暫未提供相關內容,若有後續補充,可進一步完善。
✨ 主要特性
- 本模型基於wav2vec 2.0 large XLSR - 53進行微調,先使用從 RTL.lu 收集的842小時未標記盧森堡語語音數據進行預訓練,再在4小時標記的同領域盧森堡語語音數據上進行微調。
- 模型在評估指標上表現良好,開發集WER(詞錯誤率)為19.44,測試集WER為18.77;開發集CER(字符錯誤率)為7.16,測試集CER為6.43。
📚 詳細文檔
模型描述
我們對wav2vec 2.0 large XLSR - 53檢查點進行了微調,使用從 RTL.lu 收集的842小時未標記盧森堡語語音數據進行預訓練,然後在4小時標記的同領域盧森堡語語音數據上進行微調。
預期用途與限制
更多信息待補充。
訓練和評估數據
更多信息待補充。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率(learning_rate):7.5e - 05
- 訓練批次大小(train_batch_size):3
- 評估批次大小(eval_batch_size):3
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):12
- 優化器(optimizer):Adam,β=(0.9, 0.999),ε = 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):2000
- 訓練輪數(num_epochs):50.0
- 混合精度訓練(mixed_precision_training):Native AMP
框架版本
- Transformers 4.20.0.dev0
- Pytorch 1.11.0 + cu113
- Datasets 2.2.1
- Tokenizers 0.12.1
引用信息
本模型是論文 IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS - LINGUAL SPEECH REPRESENTATIONS
的研究成果,該論文已提交至 IEEE SLT 2022 workshop。
@misc{lb-wav2vec2,
author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
year = {2022},
copyright = {2023 IEEE}
}
📄 許可證
本項目採用MIT許可證。
📦 模型信息表格
屬性 |
詳情 |
模型類型 |
自動語音識別(Automatic Speech Recognition) |
訓練數據 |
先使用從 RTL.lu 收集的842小時未標記盧森堡語語音數據進行預訓練,再在4小時標記的同領域盧森堡語語音數據上進行微調 |
評估指標 |
開發集WER:19.44;測試集WER:18.77;開發集CER:7.16;測試集CER:6.43 |
訓練超參數 |
學習率7.5e - 05,訓練批次大小3,評估批次大小3等 |
框架版本 |
Transformers 4.20.0.dev0,Pytorch 1.11.0 + cu113等 |