wav2vec2-large-xls-r-300m-hi - CV7オープンソース音声認識モデル - 無料でデプロイしてヒンディー語音声を高精度に認識

ホーム

Wav2vec2 Large Xls R 300m Hi CV7

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをヒンディー語Common Voice 7.0データセットでファインチューニングした自動音声認識モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ヒンディー語音声認識 #多方言ロバスト性 #低リソース最適化

ダウンロード数 46

リリース時間 : 3/2/2022

モデル概要

このモデルはヒンディー語音声認識タスクに特化しており、Common Voice 7.0データセットでファインチューニングされ、ヒンディー語音声をテキストに変換するアプリケーションシナリオに適しています。

モデル特徴

ヒンディー語音声認識

ヒンディー語に特化して最適化された音声認識モデル

Common Voiceデータセットに基づく

Mozilla Common Voice 7.0ヒンディー語データセットを使用してファインチューニングされました

高性能

テストセットで35.32%のWERと11.31%のCERを達成しました

モデル能力

ヒンディー語音声認識

音声をテキストに変換

使用事例

音声文字起こし

ヒンディー語音声文字起こし

ヒンディー語の音声内容をテキストに変換する

テストセットでのWERは35.32%です

音声アシスタント

ヒンディー語音声アシスタント

ヒンディー語音声アシスタントに音声認識機能を提供する

🚀 wav2vec2-large-xls-r-300m-hi-CV7

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - HIデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.6588
単語誤り率 (Wer): 0.2987

📚 ドキュメント

評価コマンド

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-CV7 --dataset mozilla-foundation/common_voice_7_0 --config hi --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合 NA

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 2000
エポック数 (num_epochs): 60
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
12.809	1.36	200	6.2066	1.0
4.3402	2.72	400	3.5184	1.0
3.4365	4.08	600	3.2779	1.0
1.8643	5.44	800	0.9875	0.6270
0.7504	6.8	1000	0.6382	0.4666
0.5328	8.16	1200	0.6075	0.4505
0.4364	9.52	1400	0.5785	0.4215
0.3777	10.88	1600	0.6279	0.4227
0.3374	12.24	1800	0.6536	0.4192
0.3236	13.6	2000	0.5911	0.4047
0.2877	14.96	2200	0.5955	0.4097
0.2643	16.33	2400	0.5923	0.3744
0.2421	17.68	2600	0.6307	0.3814
0.2218	19.05	2800	0.6036	0.3764
0.2046	20.41	3000	0.6286	0.3797
0.191	21.77	3200	0.6517	0.3889
0.1856	23.13	3400	0.6193	0.3661
0.1721	24.49	3600	0.7034	0.3727
0.1656	25.85	3800	0.6293	0.3591
0.1532	27.21	4000	0.6075	0.3611
0.1507	28.57	4200	0.6313	0.3565
0.1381	29.93	4400	0.6564	0.3578
0.1359	31.29	4600	0.6724	0.3543
0.1248	32.65	4800	0.6789	0.3512
0.1198	34.01	5000	0.6442	0.3539
0.1125	35.37	5200	0.6676	0.3419
0.1036	36.73	5400	0.7017	0.3435
0.0982	38.09	5600	0.6828	0.3319
0.0971	39.45	5800	0.6112	0.3351
0.0968	40.81	6000	0.6424	0.3252
0.0893	42.18	6200	0.6707	0.3304
0.0878	43.54	6400	0.6432	0.3236
0.0827	44.89	6600	0.6696	0.3240
0.0788	46.26	6800	0.6564	0.3180
0.0753	47.62	7000	0.6574	0.3130
0.0674	48.98	7200	0.6698	0.3175
0.0676	50.34	7400	0.6441	0.3142
0.0626	51.7	7600	0.6642	0.3121
0.0617	53.06	7800	0.6615	0.3117
0.0599	54.42	8000	0.6634	0.3059
0.0538	55.78	8200	0.6464	0.3033
0.0571	57.14	8400	0.6503	0.3018
0.0491	58.5	8600	0.6625	0.3025
0.0511	59.86	8800	0.6588	0.2987

フレームワークのバージョン

Transformers: 4.16.2
Pytorch: 1.10.0+cu111
Datasets: 1.18.3
Tokenizers: 0.11.0

モデル情報

属性	详情
モデルタイプ	自動音声認識モデル
学習データ	mozilla-foundation/common_voice_7_0

評価結果

このモデルは、以下のタスクとデータセットで評価されています。

自動音声認識 (Automatic Speech Recognition)
- Common Voice 7:
  - テスト単語誤り率 (Test WER): 35.31946325249292
  - テスト文字誤り率 (Test CER): 11.310803379493076
- Robust Speech Event - Dev Data:
  - テスト単語誤り率 (Test WER): NA
  - テスト文字誤り率 (Test CER): NA