wav2vec2-large-xls-r-300m-sat-a3オープンソースモデル - サンタリ語の自動音声認識を高精度で実施

ホーム

Wav2vec2 Large Xls R 300m Sat A3

DrishtiSharmaによって開発

Facebookのwav2vec2 - xls - r - 300mモデルをサンタリ語(Ol Chiki)音声データセットで微調整した自動音声認識(ASR)モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #サンタリ語音声認識 #低い単語誤り率 #多シーン適合

ダウンロード数 29

リリース時間 : 3/2/2022

モデル概要

このモデルはサンタリ語に最適化された自動音声認識システムで、Common Voice 8データセットで学習され、サンタリ語の音声をテキストに変換することができます。

モデル特徴

サンタリ語最適化

サンタリ語(Ol Chiki)に特化して微調整され、より高い音声認識精度を提供します。

XLS - Rアーキテクチャに基づく

Facebookの強力なwav2vec2 - XLS - R - 300mをベースモデルとして使用しています。

多シーン適用可能

Common Voiceデータセットで良好な性能を発揮し、様々な音声認識シーンに適用できます。

モデル能力

サンタリ語音声認識

音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

サンタリ語音声文字起こし

サンタリ語の音声内容をテキストに変換します。

Common Voice 8テストセットでのWERは0.357、CERは0.142です。

音声アシスタント

サンタリ語音声指令認識

サンタリ語の音声アシスタントまたはインタラクティブシステムに使用されます。

🚀 wav2vec2-large-xls-r-300m-sat-a3

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - SATデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.8961
単語誤り率 (Wer): 0.3976

📚 詳細ドキュメント

モデル情報

プロパティ	詳細
言語	sat
ライセンス	apache-2.0
タグ	automatic-speech-recognition、mozilla-foundation/common_voice_8_0、generated_from_trainer、sat、robust-speech-event、model_for_talk、hf-asr-leaderboard
データセット	mozilla-foundation/common_voice_8_0

モデル指標

モデル名	タスク	データセット	評価指標	値
wav2vec2-large-xls-r-300m-sat-a3	自動音声認識	Common Voice 8 (mozilla-foundation/common_voice_8_0, sat)	Test WER	0.357429718875502
wav2vec2-large-xls-r-300m-sat-a3	自動音声認識	Common Voice 8 (mozilla-foundation/common_voice_8_0, sat)	Test CER	0.14203730272596843
wav2vec2-large-xls-r-300m-sat-a3	自動音声認識	Robust Speech Event - Dev Data (speech-recognition-community-v2/dev_data, sat)	Test WER	NA
wav2vec2-large-xls-r-300m-sat-a3	自動音声認識	Robust Speech Event - Dev Data (speech-recognition-community-v2/dev_data, sat)	Test CER	NA

評価コマンド

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sat-a3 --dataset mozilla-foundation/common_voice_8_0 --config sat --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合

⚠️ 重要な注意

Santali (Ol Chiki)言語はspeech-recognition-community-v2/dev_dataにはありません。

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0004
学習バッチサイズ: 16
評価バッチサイズ: 8
シード: 42
勾配累積ステップ: 2
総学習バッチサイズ: 32
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: linear
学習率スケジューラのウォームアップステップ: 200
エポック数: 200
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
11.1266	33.29	100	2.8577	1.0
2.1549	66.57	200	1.0799	0.5542
0.5628	99.86	300	0.7973	0.4016
0.0779	133.29	400	0.8424	0.4177
0.0404	166.57	500	0.9048	0.4137
0.0212	199.86	600	0.8961	0.3976