wav2vec2-large-xlsr-53-842h-luxembourgish-14h開源模型 - 免費部署實現盧森堡語語音識別

Home

Wav2vec2 Large Xlsr 53 842h Luxembourgish 14h

Developed by Lemswasabi

基於842小時未標註和14小時標註盧森堡語語音數據微調的wav2vec2.0大模型，支持盧森堡語語音識別

語音識別

Transformers

OtherOpen Source License:MIT #盧森堡語語音識別 #跨語言預訓練 #低詞錯誤率

Downloads 204

Release Time : 5/21/2022

Model Overview

該模型是基於Facebook的wav2vec2.0 large XLSR-53架構，針對盧森堡語進行優化的自動語音識別(ASR)模型。先在842小時未標註數據上預訓練，再在14小時標註數據上微調，並集成了語言模型。

Model Features

跨語言預訓練

基於XLSR-53多語言模型，利用跨語言表徵提升盧森堡語識別性能

大規模數據訓練

使用842小時未標註和14小時標註盧森堡語數據進行訓練

集成語言模型

模型結合了語言模型(LM)以提高識別準確率

低詞錯誤率

在測試集上達到10.71%的WER和2.31%的CER

Model Capabilities

盧森堡語語音識別

音頻轉文本

自動語音轉錄

Use Cases

媒體轉錄

廣播內容轉錄

轉錄RTL.lu等盧森堡語廣播內容

語音助手

盧森堡語語音交互

為盧森堡語語音助手提供識別能力

🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm

本項目是一個自動語音識別模型，通過對大量盧森堡語語音數據進行微調訓練，能夠實現對盧森堡語語音的準確識別，為相關語音處理任務提供了有力支持。

🚀 快速開始

此部分文檔未提供快速開始的相關內容，你可以根據模型的使用說明進一步探索如何使用該模型。

✨ 主要特性

該模型基於wav2vec 2.0 large XLSR - 53進行微調，先使用從RTL.lu收集的842小時未標註盧森堡語語音數據進行預訓練，再在相同領域的14小時標註盧森堡語語音數據上進行微調。
模型在評估指標上表現良好，開發集的詞錯誤率（Dev WER）為11.68，測試集的詞錯誤率（Test WER）為10.71；開發集的字符錯誤率（Dev CER）為2.64，測試集的字符錯誤率（Test CER）為2.31。

📚 詳細文檔

模型描述

我們對wav2vec 2.0 large XLSR - 53檢查點進行了微調，使用從RTL.lu收集的842小時未標註盧森堡語語音數據。然後，該模型在來自相同領域的14小時標註盧森堡語語音數據上進行了微調。

預期用途與限制

文檔中未提供更多相關信息。

訓練和評估數據

文檔中未提供更多相關信息。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率（learning_rate）：7.5e - 05
訓練批次大小（train_batch_size）：3
評估批次大小（eval_batch_size）：3
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：4
總訓練批次大小（total_train_batch_size）：12
優化器（optimizer）：Adam，β值為(0.9, 0.999)，ε值為1e - 08
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：2000
訓練輪數（num_epochs）：50.0
混合精度訓練（mixed_precision_training）：Native AMP

框架版本

Transformers 4.20.0.dev0
Pytorch 1.11.0 + cu113
Datasets 2.2.1
Tokenizers 0.12.1

引用

該模型是我們提交給IEEE SLT 2022研討會的論文IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS - LINGUAL SPEECH REPRESENTATIONS的研究成果。

@misc{lb-wav2vec2,
  author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
  keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
  title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
  year = {2022},
  copyright = {2023 IEEE}
}