wav2vec2-large-xls-r-300m-hi-wx1オープンソース音声認識モデル

ホーム

Wav2vec2 Large Xls R 300m Hi Wx1

DrishtiSharmaによって開発

これは、Facebookのwav2vec2-xls-r-300mモデルをヒンディー語のCommon Voice 7.0データセットで微調整した自動音声認識（ASR）モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ヒンディー語音声認識 #低い単語誤り率 #Common Voiceデータセット

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

このモデルは、ヒンディー語の音声認識タスクに特化しており、Common Voice 7.0ヒンディー語データセットで最適化訓練されています。

モデル特徴

ヒンディー語音声認識

ヒンディー語に特化して最適化された音声認識モデル

大規模事前学習モデルに基づく

Facebookのwav2vec2-xls-r-300mモデルを微調整したもの

比較的軽量

3億パラメータのモデル規模で、性能を維持しつつ比較的軽量

モデル能力

ヒンディー語音声をテキストに変換

音声認識

音声文字起こし

使用事例

音声文字起こし

ヒンディー語音声文字起こし

ヒンディー語の音声内容をテキストに変換

Common Voice 7.0テストセットでのWERは37.2%、CERは11.76%です。

音声アシスタント

ヒンディー語音声アシスタント

ヒンディー語の音声アシスタントに音声認識機能を提供

🚀 wav2vec2-large-xls-r-300m-hi-wx1

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 -HIデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.6552
単語誤り率 (Wer): 0.3200

🚀 クイックスタート

評価コマンド

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-wx1 --dataset mozilla-foundation/common_voice_7_0 --config hi --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合 NA

🔧 技術詳細

学習ハイパーパラメータ

学習時には以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.00024
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
シード (seed): 42
勾配累積ステップ (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 1800
エポック数 (num_epochs): 50
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
12.2663	1.36	200	5.9245	1.0
4.1856	2.72	400	3.4968	1.0
3.3908	4.08	600	2.9970	1.0
1.5444	5.44	800	0.9071	0.6139
0.7237	6.8	1000	0.6508	0.4862
0.5323	8.16	1200	0.6217	0.4647
0.4426	9.52	1400	0.5785	0.4288
0.3933	10.88	1600	0.5935	0.4217
0.3532	12.24	1800	0.6358	0.4465
0.3319	13.6	2000	0.5789	0.4118
0.2877	14.96	2200	0.6163	0.4056
0.2663	16.33	2400	0.6176	0.3893
0.2511	17.68	2600	0.6065	0.3999
0.2275	19.05	2800	0.6183	0.3842
0.2098	20.41	3000	0.6486	0.3864
0.1943	21.77	3200	0.6365	0.3885
0.1877	23.13	3400	0.6013	0.3677
0.1679	24.49	3600	0.6451	0.3795
0.1667	25.85	3800	0.6410	0.3635
0.1514	27.21	4000	0.6000	0.3577
0.1453	28.57	4200	0.6020	0.3518
0.134	29.93	4400	0.6531	0.3517
0.1354	31.29	4600	0.6874	0.3578
0.1224	32.65	4800	0.6519	0.3492
0.1199	34.01	5000	0.6553	0.3490
0.1077	35.37	5200	0.6621	0.3429
0.0997	36.73	5400	0.6641	0.3413
0.0964	38.09	5600	0.6722	0.3385
0.0931	39.45	5800	0.6365	0.3363
0.0944	40.81	6000	0.6454	0.3326
0.0862	42.18	6200	0.6497	0.3256
0.0848	43.54	6400	0.6599	0.3226
0.0793	44.89	6600	0.6625	0.3232
0.076	46.26	6800	0.6463	0.3186
0.0749	47.62	7000	0.6559	0.3225
0.0663	48.98	7200	0.6552	0.3200

フレームワークバージョン

Transformers: 4.16.2
Pytorch: 1.10.0+cu111
Datasets: 1.18.3
Tokenizers: 0.11.0

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

📚 ドキュメント

プロパティ	詳細
言語	ヒンディー語 (hi)
タグ	自動音声認識 (automatic-speech-recognition), hf-asr-leaderboard, robust-speech-event
データセット	mozilla-foundation/common_voice_7_0
評価指標	単語誤り率 (wer)
モデル名	wav2vec2-large-xls-r-300m-hi-wx1
タスク	自動音声認識 (automatic-speech-recognition)
評価データセット	mozilla-foundation/common_voice_7_0 (Common Voice 7, ヒンディー語)
評価指標 (Wer)	37.19684845500431 (Test WER)
評価指標 (CER)	11.763235514672798 (Test CER)