wav2vec2-large-xls-r-300m-hsb-v2オープンソースモデル - 上索布語の自動音声認識を実現

ホーム

Wav2vec2 Large Xls R 300m Hsb V2

DrishtiSharmaによって開発

これはFacebookのwav2vec2-xls-r-300mモデルを上ソルブ語(HSB)データセットでファインチューニングした自動音声認識(ASR)モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #上ソルブ語音声認識 #低単語誤り率 #多様なシナリオ音声処理

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

このモデルは上ソルブ語の音声認識タスクに特化しており、Common Voice 8データセットでファインチューニングされており、上ソルブ語の音声をテキストに変換できます。

モデル特徴

上ソルブ語専用

上ソルブ語に最適化された音声認識モデル

大規模事前学習モデルベース

Facebookのwav2vec2-xls-r-300mモデルをファインチューニングしており、強力な音声特徴抽出能力を備えています

比較的高い認識精度

Common Voice 8テストセットで46.5%の単語誤り率(WER)と11.4%の文字誤り率(CER)を達成

モデル能力

上ソルブ語音声認識

音声からテキストへの変換

自動音声転写

使用事例

音声転写

上ソルブ語音声転写

上ソルブ語の音声内容をテキストに変換

Common Voice 8テストセットでWERが46.5%

言語保護

少数民族言語のデジタル化

上ソルブ語などの少数民族言語の保存とデジタル化を支援

🚀 wav2vec2-large-xls-r-300m-hsb-v2

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HSBデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5328
単語誤り率 (Wer): 0.4596

✨ 主な機能

このモデルは自動音声認識（Automatic Speech Recognition）に特化しています。
データセットとしてMOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HSBを使用して訓練されています。

📦 インストール

インストールに関する具体的な手順は原ドキュメントに記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

原ドキュメントに具体的なコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

評価コマンド

mozilla-foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v2 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合 Upper Sorbian (hsb) は speech-recognition-community-v2/dev_dataには存在しません。

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

パラメータ	詳細
学習率 (learning_rate)	0.00045
訓練バッチサイズ (train_batch_size)	16
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
勾配累積ステップ数 (gradient_accumulation_steps)	2
総訓練バッチサイズ (total_train_batch_size)	32
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps)	500
エポック数 (num_epochs)	50
混合精度訓練 (mixed_precision_training)	Native AMP

訓練結果

訓練損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
8.5979	3.23	100	3.5602	1.0
3.303	6.45	200	3.2238	1.0
3.2034	9.68	300	3.2002	0.9888
2.7986	12.9	400	1.2408	0.9210
1.3869	16.13	500	0.7973	0.7462
1.0228	19.35	600	0.6722	0.6788
0.8311	22.58	700	0.6100	0.6150
0.717	25.81	800	0.6236	0.6013
0.6264	29.03	900	0.6031	0.5575
0.5494	32.26	1000	0.5656	0.5309
0.4781	35.48	1100	0.5289	0.4996
0.4311	38.71	1200	0.5375	0.4768
0.3902	41.94	1300	0.5246	0.4703
0.3508	45.16	1400	0.5382	0.4696
0.3199	48.39	1500	0.5328	0.4596