wav2vec2-large-xls-r-300m-kk-with-LMオープンソースモデル - 言語強化に対応したハサク語音声認識

ホーム

Wav2vec2 Large Xls R 300m Kk With LM

DrishtiSharmaによって開発

このモデルは、facebook/wav2vec2-xls-r-300mをベースに、カザフ語(KK)のデータセットで微調整された自動音声認識(ASR)モデルで、言語モデル(LM)の強化をサポートしています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #カザフ語音声認識 #低単語誤り率 #多シーン適合

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

これはカザフ語に最適化された自動音声認識モデルで、Common Voice 8.0データセットで訓練され、カザフ語の音声をテキストに変換するのに使用できます。

モデル特徴

言語モデルの強化

モデルは言語モデル(LM)を組み合わせて後処理を行い、認識精度を向上させます。

複数データセットでの評価

Common Voiceやロバスト音声イベントなどの複数のデータセットで評価されています。

大規模事前学習

3億パラメータのwav2vec2-XLS-Rモデルをベースに微調整され、強力な音声特徴抽出能力を持っています。

モデル能力

カザフ語音声認識

音声をテキストに変換

言語モデルによる後処理をサポート

使用事例

音声文字起こし

カザフ語音声文字起こし

カザフ語の音声内容をテキストに変換します。

Common Voice 8.0テストセットでのWERは41.7%です。

音声アシスタント

カザフ語音声コマンド認識

カザフ語の音声アシスタントや制御システムの音声コマンド認識に使用されます。

🚀 wav2vec2-large-xls-r-300m-kk-with-LM

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - KKデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたものです。評価セットで以下の結果を達成しています。

🚀 クイックスタート

評価コマンド

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py  --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-kk-with-LM  --dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合

Kazakh language isn't available in speech-recognition-community-v2/dev_data

✨ 主な機能

自動音声認識タスクに対応
特定のデータセットでのトレーニングにより、高精度な音声認識が可能

📚 ドキュメント

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
learning_rate	0.000222
train_batch_size	16
eval_batch_size	8
seed	42
gradient_accumulation_steps	2
total_train_batch_size	32
optimizer	Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type	linear
lr_scheduler_warmup_steps	1000
num_epochs	150.0
mixed_precision_training	Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	Wer
9.6799	9.09	200	3.6119	1.0
3.1332	18.18	400	2.5352	1.005
1.0465	27.27	600	0.6169	0.682
0.3452	36.36	800	0.6572	0.607
0.2575	45.44	1000	0.6527	0.578
0.2088	54.53	1200	0.6828	0.551
0.158	63.62	1400	0.7074	0.5575
0.1309	72.71	1600	0.6523	0.5595
0.1074	81.8	1800	0.7262	0.5415
0.087	90.89	2000	0.7199	0.521
0.0711	99.98	2200	0.7113	0.523
0.0601	109.09	2400	0.6863	0.496
0.0451	118.18	2600	0.6998	0.483
0.0378	127.27	2800	0.6971	0.4615
0.0319	136.36	3000	0.7119	0.4475
0.0305	145.44	3200	0.7181	0.459

フレームワークバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

評価コマンド

!python eval.py \
    --model_id DrishtiSharma/wav2vec2-xls-r-300m-kk-n2 \
    --dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs

モデル情報

属性	详情
モデルタイプ	自動音声認識モデル
トレーニングデータ	mozilla-foundation/common_voice_8_0

評価結果

タスク	データセット	評価指標	値
自動音声認識	Common Voice 8 (ru)	Test WER	0.4355
自動音声認識	Common Voice 8 (ru)	Test CER	0.10469915859660263
自動音声認識	Common Voice 8 (ru)	Test WER (+LM)	0.417
自動音声認識	Common Voice 8 (ru)	Test CER (+LM)	0.10319098269566598
自動音声認識	Robust Speech Event - Dev Data (kk)	Test WER	NA
自動音声認識	Robust Speech Event - Dev Data (kk)	Test CER	NA
自動音声認識	Common Voice 8.0 (kk)	Test WER	41.7
自動音声認識	Robust Speech Event - Test Data (kk)	Test WER	67.09