wav2vec2-large-xls-r-1b-Indonesianオープンソースモデル - 無料でインドネシア語の自動音声認識を実現する

Wav2vec2 Large Xls R 1b Indonesian

kingabzproによって開発

facebook/wav2vec2-xls-r-1bをCommon Voiceインドネシア語データセットでファインチューニングした自動音声認識モデル

ダウンロード数 14

リリース時間 : 3/2/2022

モデル概要

これはインドネシア語に最適化された自動音声認識(ASR)モデルで、wav2vec2-xls-r-1bアーキテクチャに基づき、Common Voice 8.0データセットでファインチューニングされています。

大規模事前学習モデルのファインチューニング

10億パラメータのwav2vec2-xls-r-1bモデルを基にファインチューニングされており、強力な音声特徴抽出能力を備えています

インドネシア語最適化

特にインドネシア語向けに最適化されており、Common Voiceインドネシア語データセットで良好な性能を示します

マルチシーン評価

Common Voiceやロバスト音声コンペティションなど複数のデータセットで評価され、モデル性能を包括的に反映しています

インドネシア語音声認識

音声テキスト変換

自動音声転写

音声転写

音声メモ転写

インドネシア語の音声メモをテキストに変換

Common Voiceテストセットで45.51%の単語誤り率を達成

音声インターフェース

音声制御アプリケーション

インドネシア語音声制御アプリケーション向けに認識機能を提供

このモデルは、facebook/wav2vec2-xls-r-1b を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

属性	詳情
モデルタイプ	自動音声認識 (Automatic Speech Recognition)
ベースモデル	facebook/wav2vec2-xls-r-1b
訓練データセット	mozilla-foundation/common_voice_8_0
評価指標	単語誤り率 (Wer), 文字誤り率 (Cer)

タスク	データセット	評価指標	値
自動音声認識	Common Voice id (mozilla-foundation/common_voice_8_0, args: id)	単語誤り率 (Test WER)	45.51
自動音声認識	Common Voice id (mozilla-foundation/common_voice_8_0, args: id)	文字誤り率 (Test CER)	16.43
自動音声認識	Robust Speech Event - Dev Data (speech-recognition-community-v2/dev_data, args: id)	単語誤り率 (Test WER)	72.73
自動音声認識	Robust Speech Event - Test Data (speech-recognition-community-v2/eval_data, args: id)	単語誤り率 (Test WER)	79.29

以下のハイパーパラメータが訓練時に使用されました。

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)	文字誤り率 (Cer)
3.663	7.69	200	0.7898	0.6039	0.1848
0.7424	15.38	400	1.0215	0.5615	0.1924
0.4494	23.08	600	1.0901	0.5249	0.1932
0.5075	30.77	800	1.1013	0.5079	0.1935
0.4671	38.46	1000	1.1034	0.4916	0.1827
0.1928	46.15	1200	0.9550	0.4551	0.1643