wav2vec2開源自動語音識別模型 - 基於盧語語音數據微調精準識別

首頁

Wav2vec2 Large Xlsr 53 842h Luxembourgish 4h

由Lemswasabi開發

基於842小時未標註和4小時標註盧森堡語音數據微調的自動語音識別模型

語音識別

Transformers

其他開源協議:MIT #盧森堡語語音識別 #低資源語言優化 #跨語言預訓練

下載量 16

發布時間 : 3/2/2022

模型概述

該模型是基於wav2vec 2.0 large XLSR-53架構的盧森堡語語音識別模型，先在842小時未標註數據上預訓練，再在4小時標註數據上微調。

模型特點

跨語言語音表徵

利用XLSR-53的多語言預訓練模型作為基礎，有效處理資源匱乏的盧森堡語

高效數據利用

僅使用4小時標註數據就實現了較好的識別效果

雙階段訓練

先在大規模未標註數據上預訓練，再在小規模標註數據上微調

模型能力

盧森堡語語音識別

語音轉文本

使用案例

語音轉錄

盧森堡語媒體內容轉錄

將盧森堡語的廣播、電視節目自動轉錄為文本

詞錯誤率18.77%

語音助手

盧森堡語語音交互

為盧森堡地區開發本地化語音助手

🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-4h

本項目是一個自動語音識別模型，通過對大量盧森堡語語音數據進行微調訓練，可用於盧森堡語的語音識別任務，為相關領域提供了有效的技術支持。

🚀 快速開始

此部分暫未提供相關內容，若有後續補充，可進一步完善。

✨ 主要特性

本模型基於wav2vec 2.0 large XLSR - 53進行微調，先使用從 RTL.lu 收集的842小時未標記盧森堡語語音數據進行預訓練，再在4小時標記的同領域盧森堡語語音數據上進行微調。
模型在評估指標上表現良好，開發集WER（詞錯誤率）為19.44，測試集WER為18.77；開發集CER（字符錯誤率）為7.16，測試集CER為6.43。

📚 詳細文檔

模型描述

我們對wav2vec 2.0 large XLSR - 53檢查點進行了微調，使用從 RTL.lu 收集的842小時未標記盧森堡語語音數據進行預訓練，然後在4小時標記的同領域盧森堡語語音數據上進行微調。

預期用途與限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率（learning_rate）：7.5e - 05
訓練批次大小（train_batch_size）：3
評估批次大小（eval_batch_size）：3
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：4
總訓練批次大小（total_train_batch_size）：12
優化器（optimizer）：Adam，β=(0.9, 0.999)，ε = 1e - 08
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：2000
訓練輪數（num_epochs）：50.0
混合精度訓練（mixed_precision_training）：Native AMP

框架版本

Transformers 4.20.0.dev0
Pytorch 1.11.0 + cu113
Datasets 2.2.1
Tokenizers 0.12.1

引用信息

本模型是論文 IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS - LINGUAL SPEECH REPRESENTATIONS 的研究成果，該論文已提交至 IEEE SLT 2022 workshop。

@misc{lb-wav2vec2,
  author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
  keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
  title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
  year = {2022},
  copyright = {2023 IEEE}
}

📄 許可證

本項目採用MIT許可證。

📦 模型信息表格

屬性	詳情
模型類型	自動語音識別（Automatic Speech Recognition）
訓練數據	先使用從 RTL.lu 收集的842小時未標記盧森堡語語音數據進行預訓練，再在4小時標記的同領域盧森堡語語音數據上進行微調
評估指標	開發集WER：19.44；測試集WER：18.77；開發集CER：7.16；測試集CER：6.43
訓練超參數	學習率7.5e - 05，訓練批次大小3，評估批次大小3等
框架版本	Transformers 4.20.0.dev0，Pytorch 1.11.0 + cu113等