wav2vec2-large-xls-r-300m-sr-v4オープンソース音声認識モデル

ホーム

Wav2vec2 Large Xls R 300m Sr V4

DrishtiSharmaによって開発

facebook/wav2vec2-xls-r-300mをベースに、セルビア語(sr)データセットで微調整した自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #セルビア語ASR #低い単語誤り率 #多シーン音声認識

ダウンロード数 28

リリース時間 : 3/2/2022

モデル概要

このモデルは、セルビア語の自動音声認識(ASR)タスクに最適化されたwav2vec2モデルで、Common Voice 8データセットで微調整され、セルビア語の音声をテキストに変換するタスクをサポートします。

モデル特徴

セルビア語最適化

セルビア語に特化して微調整され、Common Voice 8データセットで良好な性能を発揮します。

大規模モデルベース

facebookのwav2vec2-xls-r-300mという大規模モデルアーキテクチャをベースに構築され、強力な音声特徴抽出能力を備えています。

多シーン評価

Common Voiceやロバスト音声コンテストなどの複数のデータセットで評価されています。

モデル能力

セルビア語音声認識

音声をテキストに変換

長い音声ファイルの処理(ブロック分割処理をサポート)

使用事例

音声文字起こし

セルビア語音声文字起こし

セルビア語の音声をテキストに変換する

Common Voice 8テストセットでのWERは30.33%です。

音声認識システム

音声アシスタント

セルビア語の音声アシスタント開発に使用する

🚀 wav2vec2-large-xls-r-300m-sr-v4

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - SRデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5570
単語誤り率 (Wer): 0.3038

🚀 クイックスタート

評価コマンド

mozilla-foundation/common_voice_8_0のテスト分割で評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset mozilla-foundation/common_voice_8_0 --config sr --split test --log_outputs

speech-recognition-community-v2/dev_dataで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset speech-recognition-community-v2/dev_data --config sr --split validation --chunk_length_s 10 --stride_length_s 1

🔧 技術詳細

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0003
学習バッチサイズ: 16
評価バッチサイズ: 8
シード: 42
勾配累積ステップ数: 2
総学習バッチサイズ: 32
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ数: 800
エポック数: 200
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
8.2934	7.5	300	2.9777	0.9995
1.5049	15.0	600	0.5036	0.4806
0.3263	22.5	900	0.5822	0.4055
0.2008	30.0	1200	0.5609	0.4032
0.1543	37.5	1500	0.5203	0.3710
0.1158	45.0	1800	0.6458	0.3985
0.0997	52.5	2100	0.6227	0.4013
0.0834	60.0	2400	0.6048	0.3836
0.0665	67.5	2700	0.6197	0.3686
0.0602	75.0	3000	0.5418	0.3453
0.0524	82.5	3300	0.5310	0.3486
0.0445	90.0	3600	0.5599	0.3374
0.0406	97.5	3900	0.5958	0.3327
0.0358	105.0	4200	0.6017	0.3262
0.0302	112.5	4500	0.5613	0.3248
0.0285	120.0	4800	0.5659	0.3462
0.0213	127.5	5100	0.5568	0.3206
0.0215	135.0	5400	0.6524	0.3472
0.0162	142.5	5700	0.6223	0.3458
0.0137	150.0	6000	0.6625	0.3313
0.0114	157.5	6300	0.5739	0.3336
0.0101	165.0	6600	0.5906	0.3285
0.008	172.5	6900	0.5982	0.3112
0.0076	180.0	7200	0.5399	0.3094
0.0071	187.5	7500	0.5387	0.2991
0.0057	195.0	7800	0.5570	0.3038

フレームワークバージョン

Transformers 4.16.2
Pytorch 1.10.0+cu111
Datasets 1.18.2
Tokenizers 0.11.0

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	自動音声認識 (Automatic Speech Recognition)
学習データセット	mozilla-foundation/common_voice_8_0

評価結果

このモデルは以下のタスクとデータセットで評価されています。

タスク: 自動音声認識 (Automatic Speech Recognition)
データセット:
- Common Voice 8 (mozilla-foundation/common_voice_8_0, sr)
- Robust Speech Event - Dev Data (speech-recognition-community-v2/dev_data, sr)
- Robust Speech Event - Test Data (speech-recognition-community-v2/eval_data, sr)

評価指標

データセット	評価指標	値
Common Voice 8	単語誤り率 (Wer)	0.303313
Common Voice 8	文字誤り率 (Cer)	0.1048951
Robust Speech Event - Dev Data	単語誤り率 (Wer)	0.9486784706184245
Robust Speech Event - Dev Data	文字誤り率 (Cer)	0.8084369606584945
Robust Speech Event - Test Data	単語誤り率 (Wer)	94.53