wav2vec2-xls-r-1b-kaオープンソース自動音声認識モデル - 無料でデプロイしてグルジア語の音声認識を実現

ホーム

Wav2vec2 Xls R 1b Ka

arampachaによって開発

facebook/wav2vec2-xls-r-1bをグルジア語データセットでファインチューニングした自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #グルジア語音声認識 #低単語誤り率 #多シーン適合

ダウンロード数 25

リリース時間 : 3/2/2022

モデル概要

このモデルはグルジア語に最適化された自動音声認識(ASR)モデルで、Mozilla Common Voiceとロバスト音声イベントデータセットで優れた性能を発揮します。

モデル特徴

高性能音声認識

グルジア語音声認識タスクで低単語誤り率(WER)と文字誤り率(CER)を達成します。

大規模事前学習ベース

10億パラメータのwav2vec2-xls-rモデルをファインチューニングし、強力な音声特徴抽出能力を備えています。

多データセット検証

Common Voiceやロバスト音声イベントなどの複数のデータセットで性能が検証されています。

モデル能力

グルジア語音声認識

音声からテキストへの変換

ロバスト音声処理

使用事例

音声文字起こし

グルジア語音声の文字起こし

グルジア語の音声内容をテキストに変換します。

単語誤り率7.4%、文字誤り率1.19%

音声アシスタント

グルジア語音声インタラクション

グルジア語の音声コマンド認識をサポートします。

ロバスト音声イベントデータセットで単語誤り率21.58 - 22.61%

🚀 wav2vec2-xls-r-1b-ka

このモデルは、/WORKSPACE/DATA/KA/NOIZY_STUDENT_2/ - KAデータセットでfacebook/wav2vec2-xls-r-1bをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1022
単語誤り率 (Wer): 0.1527
文字誤り率 (Cer): 0.0221

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	自動音声認識
学習データ	common_voice
生成元	Trainerによる自動生成
タグ	automatic-speech-recognition, mozilla-foundation/common_voice_8_0, generated_from_trainer, robust-speech-event, hf-asr-leaderboard

評価結果

このモデルは、いくつかのデータセットで評価され、以下の指標が得られています。

Common Voice ka

指標	値
WER LM	7.39778066580026
CER LM	1.1882089427096434

Robust Speech Event - Dev Data

指標	値
Test WER	22.61

Robust Speech Event - Test Data

指標	値
Test WER	21.58

🔧 技術詳細

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 7e-05
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 64
乱数シード (seed): 42
勾配蓄積ステップ数 (gradient_accumulation_steps): 8
総学習バッチサイズ (total_train_batch_size): 128
オプティマイザ (optimizer): Adam (betas=(0.9,0.98), epsilon=1e-08)
学習率スケジューラタイプ (lr_scheduler_type): cosine
学習率スケジューラのウォームアップ比率 (lr_scheduler_warmup_ratio): 0.1
学習ステップ数 (training_steps): 4000
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
1.2839	6.45	400	0.2229	0.3609	0.0557
0.9775	12.9	800	0.1271	0.2202	0.0317
0.9045	19.35	1200	0.1268	0.2030	0.0294
0.8652	25.8	1600	0.1211	0.1940	0.0287
0.8505	32.26	2000	0.1192	0.1912	0.0276
0.8168	38.7	2400	0.1086	0.1763	0.0260
0.7737	45.16	2800	0.1098	0.1753	0.0256
0.744	51.61	3200	0.1054	0.1646	0.0239
0.7114	58.06	3600	0.1034	0.1573	0.0228
0.6773	64.51	4000	0.1022	0.1527	0.0221