wav2vec2-large-xls-r-300m-hi-cv8-b2オープンソースASRモデル - ヒンディー語音声を高精度で認識する

ホーム

Wav2vec2 Large Xls R 300m Hi Cv8 B2

DrishtiSharmaによって開発

これはFacebookのwav2vec2 - xls - r - 300mモデルをヒンディー語のCommon Voice 8.0データセットで微調整した自動音声認識(ASR)モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ヒンディー語音声認識 #低い単語誤り率 #Common Voiceデータセット

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

このモデルはヒンディー語の自動音声認識タスクに特化しており、Common Voice 8.0データセットで訓練され、低い単語誤り率(WER)を達成しています。

モデル特徴

高性能ヒンディー語認識

Common Voice 8.0ヒンディー語テストセットで38.9%の単語誤り率(WER)と13.0%の文字誤り率(CER)を達成しました。

XLS - Rアーキテクチャに基づく

Facebookのwav2vec2 - XLS - R - 300mをベースモデルとして使用し、強力な音声特徴抽出能力を持っています。

細かい調整

35エポックの訓練を行い、線形学習率スケジューリングとウォームアップ戦略を使用してモデルの性能を最適化しました。

モデル能力

ヒンディー語音声認識

音声をテキストに変換

ロバストな音声イベント検出

使用事例

音声文字起こし

ヒンディー語音声をテキストに変換

ヒンディー語の音声内容をテキストに変換します。

テストセットで38.9% WERに達しました。

音声アシスタント

ヒンディー語音声コマンド認識

ヒンディー語の音声コマンドを認識し理解します。

🚀 wav2vec2-large-xls-r-300m-hi-cv8-b2

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HIデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.7322
単語誤り率 (Wer): 0.3469

📚 詳細ドキュメント

評価コマンド

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-cv8-b2 --dataset mozilla-foundation/common_voice_8_0 --config hi --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合

ヒンディー語はspeech-recognition-community-v2/dev_dataで利用できません。

学習ハイパーパラメータ

学習時には以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.00025
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 700
エポック数 (num_epochs): 35
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
9.6226	1.04	200	3.8855	1.0
3.4678	2.07	400	3.4283	1.0
2.3668	3.11	600	1.0743	0.7175
0.7308	4.15	800	0.7663	0.5498
0.4985	5.18	1000	0.6957	0.5001
0.3817	6.22	1200	0.6932	0.4866
0.3281	7.25	1400	0.7034	0.4983
0.2752	8.29	1600	0.6588	0.4606
0.2475	9.33	1800	0.6514	0.4328
0.219	10.36	2000	0.6396	0.4176
0.2036	11.4	2200	0.6867	0.4162
0.1793	12.44	2400	0.6943	0.4196
0.1724	13.47	2600	0.6862	0.4260
0.1554	14.51	2800	0.7615	0.4222
0.151	15.54	3000	0.7058	0.4110
0.1335	16.58	3200	0.7172	0.3986
0.1326	17.62	3400	0.7182	0.3923
0.1225	18.65	3600	0.6995	0.3910
0.1146	19.69	3800	0.7075	0.3875
0.108	20.73	4000	0.7297	0.3858
0.1048	21.76	4200	0.7413	0.3850
0.0979	22.8	4400	0.7452	0.3793
0.0946	23.83	4600	0.7436	0.3759
0.0897	24.87	4800	0.7289	0.3754
0.0854	25.91	5000	0.7271	0.3667
0.0803	26.94	5200	0.7378	0.3656
0.0752	27.98	5400	0.7488	0.3680
0.0718	29.02	5600	0.7185	0.3619
0.0702	30.05	5800	0.7428	0.3554
0.0653	31.09	6000	0.7447	0.3559
0.0638	32.12	6200	0.7327	0.3523
0.058	33.16	6400	0.7339	0.3488
0.0594	34.2	6600	0.7322	0.3469

フレームワークバージョン

Transformers: 4.16.2
Pytorch: 1.10.0+cu111
Datasets: 1.18.3
Tokenizers: 0.11.0

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

属性	詳情
モデルタイプ	自動音声認識 (Automatic Speech Recognition)
学習データセット	mozilla-foundation/common_voice_8_0
評価指標	単語誤り率 (Wer), 文字誤り率 (CER)