wav2vec2-xls-r-1b-hi-cv8オープンソース音声認識モデル - 無料でヒンディー語の音声をテキストに変換をサポート

Wav2vec2 Xls R 1b Hi Cv8

anuragshasによって開発

これはfacebook/wav2vec2-xls-r-1bモデルをCommon Voice 8.0ヒンディー語データセットでファインチューニングした自動音声認識モデルで、ヒンディー語の音声をテキストに変換するタスクをサポートします。

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルは専門的にヒンディー語の音声認識に使用され、ヒンディー語の音声をテキストに変換することができます。Common Voice評価セットで36.7%の単語誤り率を達成しています。

大規模事前学習ベース

10億パラメータのwav2vec2-xls-rモデルをファインチューニングしており、強力な音声特徴抽出能力を備えています。

ヒンディー語最適化

専門的にヒンディー語の音声データに対してファインチューニングされ、ヒンディー語の発音特徴に適応しています。

比較的低い単語誤り率

評価セットで36.7%の単語誤り率を達成し、ヒンディー語の音声認識タスクで良好な性能を発揮します。

ヒンディー語音声認識

音声をテキストに変換

長い音声ファイルの処理をサポート

音声書き起こし

ヒンディー語音声を文字に変換

ヒンディー語の音声内容を編集可能なテキスト形式に変換します。

単語誤り率36.7%

支援ツール

音声入力システム

ヒンディー語のユーザーに音声入力のサポートを提供します。

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HIデータセットでfacebook/wav2vec2-xls-r-1bをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声自動認識タスクに特化したモデルです。特定のデータセットでファインチューニングされており、高精度な音声認識を実現します。

学習時には以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.514	2.07	400	1.4589	0.8531
1.4289	4.15	800	0.8940	0.6475
1.276	6.22	1200	0.7743	0.6089
1.2213	8.29	1600	0.6919	0.4973
1.1522	10.36	2000	0.6635	0.4588
1.0914	12.44	2400	0.6839	0.4586
1.0499	14.51	2800	0.7151	0.4467
1.0238	16.58	3200	0.6824	0.4436
0.9963	18.65	3600	0.6872	0.4437
0.9728	20.73	4000	0.7047	0.4244
0.9373	22.8	4400	0.6569	0.4189
0.9028	24.87	4800	0.6623	0.4094
0.8759	26.94	5200	0.6723	0.4152
0.8824	29.02	5600	0.6467	0.4017
0.8371	31.09	6000	0.6911	0.4080
0.8205	33.16	6400	0.7145	0.4063
0.7837	35.23	6800	0.7037	0.3930
0.7708	37.31	7200	0.6925	0.3840
0.7359	39.38	7600	0.7034	0.3829
0.7153	41.45	8000	0.7030	0.3794
0.7127	43.52	8400	0.6823	0.3761
0.6884	45.6	8800	0.6854	0.3711
0.6835	47.67	9200	0.6723	0.3665
0.6703	49.74	9600	0.6773	0.3668