wav2vec2-large-xls-r-300m-pa-IN-dx1オープンソースモデル - 無料でデプロイしてパンジャーブ語の自動音声認識を実現

ホーム

Wav2vec2 Large Xls R 300m Pa IN Dx1

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mをベースに、パンジャブ語（インド）データセットで微調整された自動音声認識モデルです。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #パンジャブ語音声認識 #低リソース言語最適化 #XLS - Rアーキテクチャ

ダウンロード数 28

リリース時間 : 3/2/2022

モデル概要

このモデルはパンジャブ語（インド）に最適化された自動音声認識システムで、Common Voice 8データセットを基に訓練され、音声をテキストに変換するタスクに適しています。

モデル特徴

パンジャブ語最適化

パンジャブ語（インド）の方言に特化して最適化された音声認識モデル

大規模事前学習モデルをベースに

facebook/wav2vec2-xls-r-300mモデルを微調整しており、強力な音声特徴抽出能力を引き継いでいます。

中規模のパラメータ

3億パラメータのモデル規模で、性能と効率をバランスさせています。

モデル能力

音声をテキストに変換

パンジャブ語音声認識

自動音声認識

使用事例

音声文字起こし

パンジャブ語音声文字起こし

パンジャブ語（インド）の音声をテキストに変換します。

テストセットのWER 48.73%、CER 16.87%

音声アシスタント

パンジャブ語音声指令認識

パンジャブ語に対応した音声アシスタントシステムの構築に使用します。

🚀 wav2vec2-large-xls-r-300m-pa-IN-dx1

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - PA-INデータセットで微調整されたfacebook/wav2vec2-xls-r-300mのバージョンです。自動音声認識タスクに特化しています。

🚀 クイックスタート

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - PA-INデータセットでfacebook/wav2vec2-xls-r-300mを微調整したものです。評価セットでは以下の結果を達成しています。

損失: 1.0855
単語誤り率 (Wer): 0.4755

✨ 主な機能

自動音声認識タスクに特化したモデルです。
パンジャブ語 (pa-IN) の音声認識に適しています。

📦 インストール

インストールに関する具体的な手順は提供されていません。

💻 使用例

基本的な使用法

評価コマンドについては以下の通りです。

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-pa-IN-dx1 --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合

Punjabi language isn't available in speech-recognition-community-v2/dev_data

📚 ドキュメント

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
学習率 (learning_rate)	0.0003
訓練バッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	1200
エポック数 (num_epochs)	100.0
混合精度学習 (mixed_precision_training)	Native AMP

学習結果

訓練損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
3.4607	9.26	500	2.7746	1.0416
0.3442	18.52	1000	0.9114	0.5911
0.2213	27.78	1500	0.9687	0.5751
0.1242	37.04	2000	1.0204	0.5461
0.0998	46.3	2500	1.0250	0.5233
0.0727	55.56	3000	1.1072	0.5382
0.0605	64.81	3500	1.0588	0.5073
0.0458	74.07	4000	1.0818	0.5069
0.0338	83.33	4500	1.0948	0.5108
0.0223	92.59	5000	1.0986	0.4775