wav2vec2-large-xls-r-300m-hi-d3オープンソースモデル - ヒンディー語の音声自動認識を高精度に実現

ホーム

Wav2vec2 Large Xls R 300m Hi D3

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをヒンディー語データセットで微調整した自動音声認識(ASR)モデルで、ヒンディー語音声認識タスクに特化しています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ヒンディー語音声認識 #高精度WER最適化 #Common Voice適合

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

このモデルはヒンディー語に最適化された自動音声認識モデルで、Common Voice 7.0ヒンディー語データセットで微調整され、ヒンディー語音声をテキストに変換するのに使用できます。

モデル特徴

ヒンディー語最適化

ヒンディー語音声認識に特化して最適化と微調整が行われました

大規模モデルベース

facebook/wav2vec2-xls-r-300m大規模モデルをベースに構築されています

良好な性能

Common Voice 7.0テストセットでWERが42.04%、CERが13.87%です。

モデル能力

ヒンディー語音声認識

音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

ヒンディー語音声文字起こし

ヒンディー語音声内容をテキストに変換する

WER 42.04%, CER 13.87%

音声アシスタント

ヒンディー語音声アシスタント

ヒンディー語に対応した音声アシスタントを構築するために使用されます

🚀 wav2vec2-large-xls-r-300m-hi-d3

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - HIデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.7988
単語誤り率 (Wer): 0.3713

✨ 主な機能

このモデルは自動音声認識タスクに特化しており、特定のデータセットでの評価において一定の精度を示しています。

📚 ドキュメント

評価コマンド

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hi-d3 --dataset mozilla-foundation/common_voice_7_0 --config hi --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合ヒンディー語はspeech-recognition-community-v2/dev_dataでは利用できません。

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

属性	詳細
学習率	0.000388
学習バッチサイズ	16
評価バッチサイズ	8
シード	42
勾配累積ステップ	2
総学習バッチサイズ	32
オプティマイザ	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類	線形
学習率スケジューラのウォームアップステップ	750
エポック数	50
混合精度学習	Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
8.2826	1.36	200	3.5253	1.0
2.7019	2.72	400	1.1744	0.7360
0.7358	4.08	600	0.7781	0.5501
0.4942	5.44	800	0.7590	0.5345
0.4056	6.8	1000	0.6885	0.4776
0.3243	8.16	1200	0.7195	0.4861
0.2785	9.52	1400	0.7473	0.4930
0.2448	10.88	1600	0.7201	0.4574
0.2155	12.24	1800	0.7686	0.4648
0.2039	13.6	2000	0.7440	0.4624
0.1792	14.96	2200	0.7815	0.4658
0.1695	16.33	2400	0.7678	0.4557
0.1598	17.68	2600	0.7468	0.4393
0.1568	19.05	2800	0.7440	0.4422
0.1391	20.41	3000	0.7656	0.4317
0.1283	21.77	3200	0.7892	0.4299
0.1194	23.13	3400	0.7646	0.4192
0.1116	24.49	3600	0.8156	0.4330
0.1111	25.85	3800	0.7661	0.4322
0.1023	27.21	4000	0.7419	0.4276
0.1007	28.57	4200	0.8488	0.4245
0.0925	29.93	4400	0.8062	0.4070
0.0918	31.29	4600	0.8412	0.4218
0.0813	32.65	4800	0.8045	0.4087
0.0805	34.01	5000	0.8411	0.4113
0.0774	35.37	5200	0.7664	0.3943
0.0666	36.73	5400	0.8082	0.3939
0.0655	38.09	5600	0.7948	0.4000
0.0617	39.45	5800	0.8084	0.3932
0.0606	40.81	6000	0.8223	0.3841
0.0569	42.18	6200	0.7892	0.3832
0.0544	43.54	6400	0.8326	0.3834
0.0508	44.89	6600	0.7952	0.3774
0.0492	46.26	6800	0.7923	0.3756
0.0459	47.62	7000	0.7925	0.3701
0.0423	48.98	7200	0.7988	0.3713