wav2vec2-large-xls-r-300m-hsb-v1オープンソース音声認識モデル - 上ソルブ語の音声を高精度に認識する

ホーム

Wav2vec2 Large Xls R 300m Hsb V1

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mをベースに、上ソルブ語(HSB)データセットで微調整された自動音声認識モデルで、Common Voice 8テストセットで0.4393の単語誤り率(WER)を達成しました。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #上ソルブ語音声認識 #低リソース言語ASR #WER最適化

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

このモデルは上ソルブ語の自動音声認識タスクに特化しており、wav2vec2アーキテクチャに基づき、Mozilla Common Voice 8データセットで訓練されています。

モデル特徴

低リソース言語サポート

上ソルブ語のような低リソース言語用に最適化された音声認識モデル

XLS - Rアーキテクチャに基づく

Facebookのwav2vec2 - XLS - R - 300Mをベースモデルとして使用し、強力な多言語表現能力を持つ

Common Voiceで微調整

Mozilla Common Voice 8の上ソルブ語データセットで微調整され、特定の言語特性に適応している

モデル能力

上ソルブ語音声認識

音声をテキストに変換

使用事例

音声文字起こし

上ソルブ語音声文字起こし

上ソルブ語の音声内容をテキストに変換

Common VoiceテストセットでWERが0.4393

言語保護

少数民族言語のデジタル化

上ソルブ語などの少数民族言語の保存とデジタル化を支援

🚀 wav2vec2-large-xls-r-300m-hsb-v1

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HSBデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5684
単語誤り率 (Wer): 0.4402

🚀 クイックスタート

このモデルの評価方法やトレーニングのハイパーパラメータ、トレーニング結果などの詳細については、以下のセクションを参照してください。

✨ 主な機能

上ソルビア語 (Upper Sorbian) の自動音声認識に特化したモデルです。
特定のデータセットでファインチューニングされており、高い精度を実現しています。

📦 インストール

インストールに関する具体的な手順は提供されていません。

💻 使用例

基本的な使用法

評価コマンド

mozilla-foundation/common_voice_8_0のテスト分割で評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v1 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合上ソルビア語はspeech-recognition-community-v2/dev_dataには存在しません。

📚 ドキュメント

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

パラメータ	詳細
学習率 (learning_rate)	0.00045
トレーニングバッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
勾配累積ステップ数 (gradient_accumulation_steps)	2
総トレーニングバッチサイズ (total_train_batch_size)	32
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps)	500
エポック数 (num_epochs)	50
混合精度トレーニング (mixed_precision_training)	Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
8.972	3.23	100	3.7498	1.0
3.3401	6.45	200	3.2320	1.0
3.2046	9.68	300	3.1741	0.9806
2.4031	12.9	400	1.0579	0.8996
1.0427	16.13	500	0.7989	0.7557
0.741	19.35	600	0.6405	0.6299
0.5699	22.58	700	0.6129	0.5928
0.4607	25.81	800	0.6548	0.5695
0.3827	29.03	900	0.6268	0.5190
0.3282	32.26	1000	0.5919	0.5016
0.2764	35.48	1100	0.5953	0.4805
0.2335	38.71	1200	0.5717	0.4728
0.2106	41.94	1300	0.5674	0.4569
0.1859	45.16	1400	0.5685	0.4502
0.1592	48.39	1500	0.5684	0.4402