wav2vec2-xls-r-300m-ab-CV8オープンソースモデル - 無料でアブハズ語の自動音声認識を実現

Wav2vec2 Xls R 300m Ab CV8

emreによって開発

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットで微調整したバージョンで、アブハズ語の自動音声認識タスクに使用されます。

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

これはアブハズ語(ab)に最適化された自動音声認識(ASR)モデルで、wav2vec2-xls-r-300mアーキテクチャを微調整し、Common Voice 8データセットで訓練されています。

多言語事前学習の基礎

facebook/wav2vec2-xls-r-300mという強力な多言語事前学習モデルに基づいています

特定言語の最適化

アブハズ語に対して特別な微調整が行われています

効率的な訓練

混合精度訓練や勾配累積などの技術を使用して訓練効率を最適化しています

アブハズ語音声認識

音声からテキストへの変換

音声文字起こし

アブハズ語音声文字起こし

アブハズ語の音声をテキストに変換する

テストWER 44.9

このモデルは、common_voiceデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットで以下の結果を達成しています。

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングしたものです。評価セットでは以下の結果が得られます。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

学習中に以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.7729	0.63	500	3.0624	1.0021
2.7348	1.26	1000	1.0460	0.9815
1.2756	1.9	1500	0.4618	0.8309
1.0419	2.53	2000	0.3725	0.7449
0.9491	3.16	2500	0.3368	0.7345
0.9006	3.79	3000	0.3014	0.6936
0.8519	4.42	3500	0.2852	0.6767
0.8243	5.06	4000	0.2701	0.6504
0.7902	5.69	4500	0.2641	0.6221
0.7767	6.32	5000	0.2549	0.6192
0.7516	6.95	5500	0.2515	0.6179
0.737	7.59	6000	0.2408	0.5963
0.7217	8.22	6500	0.2429	0.6261
0.7101	8.85	7000	0.2366	0.5687
0.6922	9.48	7500	0.2277	0.5680
0.6866	10.11	8000	0.2242	0.5847
0.6703	10.75	8500	0.2222	0.5803
0.6649	11.38	9000	0.2247	0.5765
0.6513	12.01	9500	0.2182	0.5644
0.6369	12.64	10000	0.2128	0.5508
0.6425	13.27	10500	0.2132	0.5514
0.6399	13.91	11000	0.2116	0.5495
0.6208	14.54	11500	0.2105	0.5474