wav2vec2-xls-r-300m-pa-IN-r5オープンソース音声認識モデル - パンジャーブ語（インド）の音声を高精度に認識

ホーム

Wav2vec2 Xls R 300m Pa IN R5

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをパンジャーブ語(インド)データセットでファインチューニングした自動音声認識モデルです。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #パンジャーブ語音声認識 #低リソース言語ASR #XLS-Rアーキテクチャ最適化

ダウンロード数 25

リリース時間 : 3/2/2022

モデル概要

このモデルはパンジャーブ語(インド)の音声認識タスク専用で、Mozilla Common Voice 8.0データセットで訓練され、パンジャーブ語音声をテキストに変換するために使用できます。

モデル特徴

パンジャーブ語音声認識

パンジャーブ語(インド)に最適化された音声認識モデル

wav2vec2アーキテクチャベース

facebookのwav2vec2-xls-r-300m事前訓練モデルをベースに使用

Common Voiceデータセットで訓練

Mozilla Foundationのcommon_voice_8_0データセットでファインチューニング

モデル能力

パンジャーブ語音声からテキストへ変換

自動音声認識

使用事例

音声文字起こし

パンジャーブ語音声文字起こし

パンジャーブ語音声内容をテキストに変換

テストセットでWER41.87%、CER13.30%

音声アシスタント

パンジャーブ語音声アシスタント

パンジャーブ語ユーザーに音声インタラクション機能を提供

🚀 wav2vec2-xls-r-300m-pa-IN-r5

このモデルは、自動音声認識タスクに特化したモデルです。MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - PA-INデータセットで微調整され、高い精度を達成しています。

🚀 クイックスタート

このモデルは、facebook/wav2vec2-xls-r-300m をMOZILLA-FOUNDATION/COMMON_VOICE_8_0 - PA-INデータセットで微調整したものです。評価セットでは以下の結果を達成しています。

損失: 0.8881
単語誤り率 (Wer): 0.4175

評価コマンド

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-300m-pa-IN-r5 --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合パンジャブ語はspeech-recognition-community-v2/dev_dataでは利用できません。

✨ 主な機能

自動音声認識タスクに特化したモデルです。
MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - PA-INデータセットで微調整されています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

このREADMEには具体的なコード例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

学習ハイパーパラメータ

学習時に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.000111
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 32
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 2000
エポック数 (num_epochs): 200.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
10.695	18.52	500	3.5681	1.0
3.2718	37.04	1000	2.3081	0.9643
0.8727	55.56	1500	0.7227	0.5147
0.3349	74.07	2000	0.7498	0.4959
0.2134	92.59	2500	0.7779	0.4720
0.1445	111.11	3000	0.8120	0.4594
0.1057	129.63	3500	0.8225	0.4610
0.0826	148.15	4000	0.8307	0.4351
0.0639	166.67	4500	0.8967	0.4316
0.0528	185.19	5000	0.8875	0.4238