wav2vec2-xls - r - ヒンディー語用オープンソース音声認識モデル - ヒンディー語の音声内容を高精度で認識

Wav2vec2 Xls R Hindi

shivamによって開発

これはfacebook/wav2vec2-xls-r-300mをヒンディー語Common Voice 7.0データセットでファインチューニングした自動音声認識(ASR)モデルです

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

このモデルはヒンディー語音声認識タスク専用で、Common Voice 7.0ヒンディー語テストセットで52.3%の単語誤り率(WER)と26.09%の文字誤り率(CER)を達成しました

ヒンディー語音声認識

ヒンディー語に最適化された音声認識モデル

XLS-Rアーキテクチャベース

facebookのwav2vec2-xls-r-300mをベースモデルとして使用

Common Voiceデータセットでトレーニング

Mozilla Common Voice 7.0ヒンディー語データセットでファインチューニング

ヒンディー語音声からテキストへ変換

自動音声認識

音声書き起こし

ヒンディー語音声書き起こし

ヒンディー語音声コンテンツをテキストに変換

テストセットで52.3%の単語誤り率を達成

音声アシスタント

ヒンディー語音声コマンド認識

ヒンディー語音声コマンドを理解するために使用

このモデルは、自動音声認識タスクに特化したモデルです。MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - HIデータセットで微調整され、評価セットで良好な結果を達成しています。

このモデルは、facebook/wav2vec2-xls-r-300m をMOZILLA-FOUNDATION/COMMON_VOICE_7_0 - HIデータセットで微調整したものです。評価セットでは以下の結果を達成しています。

プロパティ	詳細
モデルタイプ	自動音声認識
訓練データセット	mozilla-foundation/common_voice_7_0
評価指標	WER、CER

タスク	データセット	評価指標	値
自動音声認識	Common Voice Corpus 7.0	テストWER	52.3
自動音声認識	Common Voice Corpus 7.0	テストCER	26.09

訓練中に使用されたハイパーパラメータは以下の通りです。

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.3155	3.4	500	4.5582	1.0
3.3369	6.8	1000	3.4269	1.0
2.1785	10.2	1500	1.7191	0.8831
1.579	13.6	2000	1.3604	0.7647
1.3773	17.01	2500	1.2737	0.7519
1.3165	20.41	3000	1.2457	0.7401
1.2274	23.81	3500	1.3617	0.7301
1.1787	27.21	4000	1.2068	0.7010
1.1467	30.61	4500	1.2416	0.6946
1.0801	34.01	5000	1.2312	0.6990
1.0709	37.41	5500	1.2984	0.7138
1.0307	40.81	6000	1.2049	0.6871
1.0003	44.22	6500	1.1956	0.6841
1.004	47.62	7000	1.2101	0.6793