wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lmオープンソースモデル - ルクセンブルク語の音声を高精度に識別

ホーム

Wav2vec2 Large Xlsr 53 842h Luxembourgish 14h With Lm

Lemswasabiによって開発

wav2vec 2.0大型XLSR-53チェックポイントを微調整したルクセンブルク語音声認識モデル、842時間の未ラベルデータと14時間のラベル付きデータで訓練され、5-gram言語モデルを統合

音声認識

Transformers

その他オープンソースライセンス:MIT #ルクセンブルク語音声認識 #低単語誤り率(WER)#言語間事前学習

ダウンロード数 170

リリース時間 : 5/24/2022

モデル概要

このモデルはルクセンブルク語向けの自動音声認識システムで、大規模な未ラベルデータと少量のラベル付きデータで訓練され、言語モデルを組み合わせて認識精度を向上

モデル特徴

言語間事前学習

XLSR-53多言語モデルに基づいて微調整し、言語間音声表現を活用

言語モデル統合

5-gram言語モデルを使用して出力を再評価し、認識精度を向上

効率的なデータ利用

842時間の未ラベルデータと14時間のラベル付きデータを組み合わせて訓練

モデル能力

ルクセンブルク語音声認識

音声からテキストへの変換

音声転写

使用事例

メディア転写

放送内容の転写

RTL.luなどのルクセンブルク語放送内容を転写

単語誤り率9.3%-9.5%

音声アシスタント

ルクセンブルク語音声インタラクション

ルクセンブルク語ユーザー向けに音声制御機能を提供

🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm

このモデルは、オートメーティッド・スピーチ・リコグニション（自動音声認識）に特化したもので、Luxembourgish言語に対応しています。wav2vec 2.0のモデルをファインチューニングし、言語モデルを用いて転写結果を再評価することで、高精度な音声認識を実現します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

このREADMEには具体的なコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

🔍 モデルの説明

私たちは、RTL.lu から収集した842時間分のラベルなしのLuxembourgish音声データを使って、wav2vec 2.0 large XLSR-53のチェックポイントをファインチューニングしました。その後、同じドメインから収集した14時間分のラベル付きLuxembourgish音声データでさらにファインチューニングを行いました。さらに、同じドメインのテキストコーパスで学習した5-gram言語モデルを用いて、出力された転写結果を再評価しています。

📊 モデルの評価結果

評価指標	開発セット	テストセット
WER (Word Error Rate)	9.50	9.30
CER (Character Error Rate)	2.17	2.08

🛠️ トレーニング手順

トレーニングのハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 7.5e-05
train_batch_size: 3
eval_batch_size: 3
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 12
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 2000
num_epochs: 50.0
mixed_precision_training: Native AMP

フレームワークのバージョン

Transformers 4.20.0.dev0
Pytorch 1.11.0+cu113
Datasets 2.2.1
Tokenizers 0.12.1

📖 引用

このモデルは、IEEE SLT 2022 workshop に投稿された論文 IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS の成果物です。

@misc{lb-wav2vec2,
  author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
  keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
  title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
  year = {2022},
  copyright = {2023 IEEE}
}