wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm開源模型

首頁

Wav2vec2 Large Xlsr 53 842h Luxembourgish 14h With Lm

由Lemswasabi開發

基於wav2vec 2.0大型XLSR-53檢查點微調的盧森堡語語音識別模型，使用842小時未標註和14小時標註數據訓練，並集成5-gram語言模型

語音識別

Transformers

其他開源協議:MIT #盧森堡語語音識別 #低詞錯誤率(WER)#跨語言預訓練

下載量 170

發布時間 : 5/24/2022

模型概述

該模型是一個針對盧森堡語的自動語音識別系統，通過大規模未標註數據和少量標註數據訓練，結合語言模型提升識別準確率

模型特點

跨語言預訓練

基於XLSR-53多語言模型進行微調，充分利用跨語言語音表徵

語言模型集成

使用5-gram語言模型對輸出進行重新評分，提高識別準確率

高效數據利用

結合842小時未標註數據和14小時標註數據進行訓練

模型能力

盧森堡語語音識別

音頻轉文本

語音轉錄

使用案例

媒體轉錄

廣播內容轉錄

轉錄RTL.lu等盧森堡語廣播內容

詞錯誤率9.3%-9.5%

語音助手

盧森堡語語音交互

為盧森堡語用戶提供語音控制功能

🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm

本項目是一個自動語音識別模型，通過對大量盧森堡語語音數據進行微調訓練，並結合語言模型進行輸出轉錄重評分，在盧森堡語語音識別任務中取得了較好的效果。

🚀 快速開始

本模型為自動語音識別模型，可用於盧森堡語的語音識別任務。

✨ 主要特性

基於wav2vec 2.0 large XLSR - 53進行微調，先使用842小時未標註的盧森堡語語音數據，再使用14小時標註的同領域盧森堡語語音數據進行訓練。
利用5 - gram語言模型對輸出轉錄進行重評分，提升識別效果。

📚 詳細文檔

模型描述

我們對wav2vec 2.0 large XLSR - 53檢查點進行了微調，使用了從RTL.lu收集的842小時未標註的盧森堡語語音數據。然後在來自同一領域的14小時標註的盧森堡語語音數據上對模型進行了微調。此外，我們使用在同一領域的文本語料庫上訓練的5 - gram語言模型對輸出轉錄進行重評分。

預期用途與侷限性

更多信息待補充。

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：7.5e - 05
訓練批次大小：3
評估批次大小：3
隨機種子：42
梯度累積步數：4
總訓練批次大小：12
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器熱身步數：2000
訓練輪數：50.0
混合精度訓練：Native AMP

框架版本

Transformers 4.20.0.dev0
Pytorch 1.11.0 + cu113
Datasets 2.2.1
Tokenizers 0.12.1

引用

本模型是我們提交給IEEE SLT 2022研討會的論文IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS - LINGUAL SPEECH REPRESENTATIONS的成果。

@misc{lb-wav2vec2,
  author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
  keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
  title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
  year = {2022},
  copyright = {2023 IEEE}
}

📄 許可證

本項目採用MIT許可證。

📦 模型信息

屬性	詳情
模型類型	自動語音識別
評估指標	WER、CER
模型名稱	Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm
開發集WER	9.50
測試集WER	9.30
開發集CER	2.17
測試集CER	2.08