xls - r - 1B - teは無料でオープンソース！テルグ語の自動音声認識を実現し、実用的な選択肢です！

Xls R 1B Te

chmanojによって開発

facebook/wav2vec2-xls-r-1bをベースに、OPENSLR_SLR66 - NAデータセットで微調整したテルグ語音声認識モデルで、自動音声認識タスクをサポートします。

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

このモデルはテルグ語に最適化された自動音声認識システムで、XLS - Rアーキテクチャに基づき、OpenSLRのSLR66データセットで微調整され、テルグ語の音声をテキストに変換するタスクに適しています。

高精度なテルグ語認識

テストセットで20.624%の単語誤り率(WER)と3.979%の文字誤り率(CER)を達成しました。

大規模事前学習の基礎

facebook/wav2vec2-xls-r-1bモデルをベースに微調整され、大規模事前学習モデルの強力な特徴抽出能力を引き継いでいます。

言語モデルデコードをサポート

言語モデルを統合することで、認識精度をさらに向上させることができ、WERが26.14%から20.69%に改善されます。

テルグ語音声認識

音声をテキストに変換

言語モデルの統合をサポート

音声文字起こし

テルグ語の音声文字起こし

テルグ語の音声内容をテキストに変換します。

テストセットで20.624%のWERを達成しました。

音声アシスタント

テルグ語の音声インタラクション

テルグ語のユーザーに音声インタラクション機能を提供します。

このモデルは、自動音声認識タスクに特化したモデルです。OPENSLR_SLR66 - NAデータセットで微調整され、高い精度を達成しています。

このモデルは、facebook/wav2vec2-xls-r-1b をOPENSLR_SLR66 - NAデータセットで微調整したバージョンです。評価セットでは以下の結果を達成しています。

指標	分割	LMを使用したデコード	値
WER	トレーニング	いいえ	5.36
CER	トレーニング	いいえ	1.11
WER	テスト	いいえ	26.14
CER	テスト	いいえ	4.93
WER	トレーニング	はい	5.04
CER	トレーニング	はい	1.07
WER	テスト	はい	20.69
CER	テスト	はい	3.986

名前	タスク	データセット	メトリクス	値
xls-r-1B-te	自動音声認識	Open SLR (SLR66)	Test WER	20.624
xls-r-1B-te	自動音声認識	Open SLR (SLR66)	Test CER	3.979
xls-r-1B-te	自動音声認識	Open SLR (SLR66)	Test WER (without LM)	26.14777618364419
xls-r-1B-te	自動音声認識	Open SLR (SLR66)	Test CER (without LM)	4.932543184970369

トレーニング中に以下のハイパーパラメータが使用されました。

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.9038	4.8	500	3.0125	1.0
1.3777	9.61	1000	0.8681	0.8753
1.1436	14.42	1500	0.6256	0.7961
1.0997	19.23	2000	0.5244	0.6875
1.0363	24.04	2500	0.4585	0.6276
0.7996	28.84	3000	0.4072	0.5295
0.825	33.65	3500	0.3590	0.5222
0.8018	38.46	4000	0.3678	0.4671
0.7545	43.27	4500	0.3474	0.3962
0.7375	48.08	5000	0.3224	0.3869
0.6198	52.88	5500	0.3233	0.3630
0.6608	57.69	6000	0.3029	0.3308
0.645	62.5	6500	0.3195	0.3722
0.5249	67.31	7000	0.3004	0.3202
0.4875	72.11	7500	0.2826	0.2992
0.5171	76.92	8000	0.2962	0.2976
0.4974	81.73	8500	0.2990	0.2933
0.4387	86.54	9000	0.2834	0.2755
0.4511	91.34	9500	0.2886	0.2787
0.4112	96.15	10000	0.3093	0.2976
0.4064	100.96	10500	0.3123	0.2863
0.4047	105.77	11000	0.2968	0.2719
0.3519	110.57	11500	0.3106	0.2832
0.3719	115.38	12000	0.3030	0.2737
0.3669	120.19	12500	0.2964	0.2714
0.3386	125.0	13000	0.3101	0.2714
0.3137	129.8	13500	0.3063	0.2710
0.3008	134.61	14000	0.3082	0.2617
0.301	139.42	14500	0.3121	0.2628
0.3291	144.23	15000	0.3105	0.2612
0.3133	149.04	15500	0.3114	0.2624