wav2vec2-large-xls-r-300m-sat-finalオープンソースモデル - サンタリ語音声認識を無料でデプロイサポート

Wav2vec2 Large Xls R 300m Sat Final

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mを基に、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - SATデータセットでファインチューニングされた自動音声認識モデルで、Santali (Ol Chiki)言語をサポートしています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #サンタリ語認識 #ロバスト音声処理 #多方言サポート

ダウンロード数 28

リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識(ASR)モデルで、Santali (Ol Chiki)言語の音声から文字への変換タスクに特化しています。

モデル特徴

多言語サポート

Santali (Ol Chiki)言語に特化して最適化されています

高性能

Common Voice 8テストセットで34.94%の単語誤り率(WER)と13.77%の文字誤り率(CER)を達成しました

大規模事前学習ベース

facebook/wav2vec2-xls-r-300mモデルを基にファインチューニングされており、強力な音声特徴抽出能力を継承しています

モデル能力

音声認識

Santali (Ol Chiki)言語処理

音声から文字への変換

使用事例

音声文字起こし

Santali音声文字起こし

Santali言語の音声内容を文字に変換します

テストセットで34.94%の単語誤り率を達成

音声アシスタント

Santali音声アシスタント

Santali言語使用者向けに音声インタラクション機能を提供します

🚀 wav2vec2-large-xls-r-300m-sat-final

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - SATデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.8012
単語誤り率 (Wer): 0.3815

🚀 クイックスタート

このモデルの評価コマンドは以下の通りです。

1. mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sat-final --dataset mozilla-foundation/common_voice_8_0 --config sat --split test --log_outputs

2. speech-recognition-community-v2/dev_dataで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sat-final --dataset speech-recognition-community-v2/dev_data --config sat --split validation --chunk_length_s 10 --stride_length_s 1

⚠️ 重要提示

Santali (Ol Chiki)言語はspeech-recognition-community-v2/dev_dataに含まれていません。

🔧 技術詳細

トレーニングのハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0004
トレーニングバッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総トレーニングバッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 170
エポック数 (num_epochs): 200
混合精度トレーニング (mixed_precision_training): Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
10.6317	33.29	100	2.8629	1.0
2.047	66.57	200	0.9516	0.5703
0.4475	99.86	300	0.8539	0.3896
0.0716	133.29	400	0.8277	0.3454
0.047	166.57	500	0.7597	0.3655
0.0249	199.86	600	0.8012	0.3815