wav2vec2-xls-r-300m-kk-n2オープンソースASRモデル - カザフ語の音声を高精度に識別する力を提供する

ホーム

Wav2vec2 Xls R 300m Kk N2

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをカザフ語(KK)音声データセットでファインチューニングした自動音声認識(ASR)モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #カザフ語音声認識 #多方言ロバスト性 #低CER性能

ダウンロード数 15

リリース時間 : 3/2/2022

モデル概要

このモデルはカザフ語の音声認識タスクに特化しており、Common Voice 8データセットでファインチューニングされ、カザフ語の音声をテキストに変換することができます。

モデル特徴

カザフ語最適化

カザフ語の音声認識に特化してファインチューニングと最適化が行われました

大規模事前学習モデルに基づく

facebookのwav2vec2-xls-r-300mモデルを基にファインチューニングされ、その強力な音声特徴抽出能力を引き継いでいます

中規模モデル

3億パラメータの規模で、精度と計算効率のバランスが良いです

モデル能力

カザフ語音声認識

音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

カザフ語音声文字起こし

カザフ語の音声内容をテキスト形式に変換する

Common Voice 8テストセットでのWERは0.4355です

音声アシスタント

カザフ語音声指令認識

カザフ語の音声アシスタントでの音声指令認識に使用する

🚀 wav2vec2-xls-r-300m-kk-n2

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - KKデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットで以下の結果を達成しています。

損失: 0.7149
単語誤り率 (Wer): 0.451

🚀 クイックスタート

評価コマンド

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-xls-r-300m-kk-n2 --dataset mozilla-foundation/common_voice_8_0 --config kk --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合

Kazakh language not found in speech-recognition-community-v2/dev_data!

✨ 主な機能

このモデルは自動音声認識タスクに特化しており、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - KKデータセットを用いて訓練されています。

🔧 技術詳細

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

パラメータ	詳細
学習率	0.000222
訓練バッチサイズ	16
評価バッチサイズ	8
シード	42
勾配累積ステップ	2
総訓練バッチサイズ	32
オプティマイザ	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラタイプ	線形
学習率スケジューラウォームアップステップ	1000
エポック数	150.0
混合精度訓練	Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
9.6799	9.09	200	3.6119	1.0
3.1332	18.18	400	2.5352	1.005
1.0465	27.27	600	0.6169	0.682
0.3452	36.36	800	0.6572	0.607
0.2575	45.44	1000	0.6527	0.578
0.2088	54.53	1200	0.6828	0.551
0.158	63.62	1400	0.7074	0.5575
0.1309	72.71	1600	0.6523	0.5595
0.1074	81.8	1800	0.7262	0.5415
0.087	90.89	2000	0.7199	0.521
0.0711	99.98	2200	0.7113	0.523
0.0601	109.09	2400	0.6863	0.496
0.0451	118.18	2600	0.6998	0.483
0.0378	127.27	2800	0.6971	0.4615
0.0319	136.36	3000	0.7119	0.4475
0.0305	145.44	3200	0.7181	0.459