wav2vec2-large-xls-r-300m-sl-with-LM-v1オープンソース音声認識モデル

Wav2vec2 Large Xls R 300m Sl With LM V1

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをベースに、スロベニア語(Common Voice 8.0)データセットで微調整した自動音声認識(ASR)モデルで、言語モデル(LM)を組み合わせることで認識精度が向上しています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #スロベニア語音声認識 #高精度WER #多シーン適合

ダウンロード数 25

リリース時間 : 3/2/2022

モデル概要

このモデルはスロベニア語の音声認識タスクに特化しており、Common Voice 8.0データセットで良好な認識精度を達成しています。

モデル特徴

言語モデル強化

言語モデル(LM)を組み合わせることで、認識精度が大幅に向上し、WERが20.6%から13.5%に低下しました。

多データセット検証

Common Voiceやロバスト音声イベントなどの複数のデータセットで検証されています。

効率的なトレーニング

混合精度トレーニングと線形学習率スケジューラを使用してトレーニングプロセスを最適化しています。

モデル能力

スロベニア語音声認識

長時間音声処理(チャンク処理をサポート)

高い文字認識精度(CER 3.8%)

使用事例

音声文字変換

音声文字起こし

スロベニア語の音声を文字に変換します。

Common VoiceテストセットでWER 13.5%

音声アシスタント

音声コマンド認識

スロベニア語の音声コマンドを認識します。

ロバスト音声イベントテストセットでWER 46.17%

🚀 wav2vec2-large-xls-r-300m-sl-with-LM-v1

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - SLデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたものです。評価セットでは、以下の結果を達成しています。

🚀 クイックスタート

このモデルは自動音声認識タスクに使用できます。以下のコマンドで評価を行うことができます。

✨ 主な機能

自動音声認識タスクに対応
特定のデータセットでの訓練により、高い精度を実現

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを実行してください。

pip install transformers datasets torch tokenizers

💻 使用例

基本的な使用法

以下は、このモデルを評価するためのコマンド例です。

mozilla-foundation/common_voice_8_0での評価

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sl-with-LM-v1 --dataset mozilla-foundation/common_voice_8_0 --config sl --split test --log_outputs

speech-recognition-community-v2/dev_dataでの評価

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sl-with-LM-v1 --dataset speech-recognition-community-v2/dev_data --config sl --split validation --chunk_length_s 10 --stride_length_s 1

📚 ドキュメント

評価結果

タスク	データセット	評価指標	値
自動音声認識	Common Voice 8	Test WER	0.20626555409164105
自動音声認識	Common Voice 8	Test CER	0.051648321634392154
自動音声認識	Common Voice 8	Test WER (+LM)	0.13482652613087395
自動音声認識	Common Voice 8	Test CER (+LM)	0.038838663862562475
自動音声認識	Robust Speech Event - Dev Data	Dev WER	0.5406156320830592
自動音声認識	Robust Speech Event - Dev Data	Dev CER	0.22249723590310583
自動音声認識	Robust Speech Event - Dev Data	Dev WER (+LM)	0.49783147459727384
自動音声認識	Robust Speech Event - Dev Data	Dev CER (+LM)	0.1591062599627158
自動音声認識	Robust Speech Event - Test Data	Test WER	46.17

訓練ハイパーパラメータ

学習率: 7.1e-05
訓練バッチサイズ: 32
評価バッチサイズ: 32
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラタイプ: linear
学習率スケジューラウォームアップステップ: 1000
エポック数: 100.0
混合精度訓練: Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	Wer
3.3881	6.1	500	2.9710	1.0
2.6401	12.2	1000	1.7677	0.9734
1.5152	18.29	1500	0.5564	0.6011
1.2191	24.39	2000	0.4319	0.4390
1.0237	30.49	2500	0.3141	0.3175
0.8892	36.59	3000	0.2748	0.2689
0.8296	42.68	3500	0.2680	0.2534
0.7602	48.78	4000	0.2820	0.2506
0.7186	54.88	4500	0.2672	0.2398
0.6887	60.98	5000	0.2729	0.2402
0.6507	67.07	5500	0.2767	0.2361
0.6226	73.17	6000	0.2817	0.2332
0.6024	79.27	6500	0.2679	0.2279
0.5787	85.37	7000	0.2837	0.2316
0.5744	91.46	7500	0.2838	0.2284
0.5556	97.56	8000	0.2763	0.2281