wav2vec2-large-xls-r-300m-sl-with-LM-v2オープンソースモデル - スロベニア語の音声を高精度に識別

ホーム

Wav2vec2 Large Xls R 300m Sl With LM V2

DrishtiSharmaによって開発

これはfacebook/wav2vec2-xls-r-300mをスロベニア語(common_voice_8_0)データセットでファインチューニングした自動音声認識(ASR)モデルで、言語モデル(LM)強化をサポートしています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #スロベニア語音声認識 #高精度WER最適化 #マルチシーン音声転写

ダウンロード数 26

リリース時間 : 3/2/2022

モデル概要

このモデルはスロベニア語の音声認識タスクに特化しており、Common Voice 8データセットで優れた性能を発揮し、認識精度向上のための言語モデル強化をサポートします。

モデル特徴

言語モデル強化

言語モデル(LM)強化をサポートし、認識精度を大幅に向上(WERが0.217から0.146に改善)

マルチデータセット検証

Common Voice 8とロバスト音声イベントデータセットで包括的な評価を実施

効率的なトレーニング

混合精度トレーニングと線形学習率スケジューラを使用してトレーニングプロセスを最適化

モデル能力

スロベニア語音声認識

長音声処理(チャンク処理対応)

言語モデル統合

使用事例

音声文字起こし

音声からテキストへ

スロベニア語音声をテキストに変換

Common Voice 8テストセットでWER 0.217(LMなし)/0.146(LMあり)を達成

音声アシスタント

スロベニア語音声コマンド認識

音声アシスタントや音声制御システムのコマンド認識に使用

ロバスト音声イベントテストセットでWER 46.69

🚀 wav2vec2-large-xls-r-300m-sl-with-LM-v2

このモデルは、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SLデータセットで[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)をファインチューニングしたものです。評価セットでは以下の結果を達成しています。

🚀 クイックスタート

このモデルは自動音声認識タスクに使用できます。以下に評価コマンドや学習のハイパーパラメータなどの詳細を示します。

✨ 主な機能

自動音声認識タスクに適用可能です。
特定のデータセットでの学習により、高い精度を達成しています。

📦 インストール

インストールに関する具体的な手順は原ドキュメントに記載されていません。

💻 使用例

基本的な使用法

評価コマンド

mozilla - foundation/common_voice_8_0のテストスプリットで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sl-with-LM-v2 --dataset mozilla-foundation/common_voice_8_0 --config sl --split test --log_outputs

speech - recognition - community - v2/dev_dataで評価する場合

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sl-with-LM-v2 --dataset speech-recognition-community-v2/dev_data --config sl --split validation --chunk_length_s 10 --stride_length_s 1

📚 ドキュメント

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

パラメータ	詳細
learning_rate	7e - 05
train_batch_size	32
eval_batch_size	32
seed	42
optimizer	Adam with betas=(0.9,0.999) and epsilon=1e - 08
lr_scheduler_type	linear
lr_scheduler_warmup_steps	1000
num_epochs	100.0
mixed_precision_training	Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	Wer
6.9294	6.1	500	2.9712	1.0
2.8305	12.2	1000	1.7073	0.9479
1.4795	18.29	1500	0.5756	0.6397
1.3433	24.39	2000	0.4968	0.5424
1.1766	30.49	2500	0.4185	0.4743
1.0017	36.59	3000	0.3303	0.3578
0.9358	42.68	3500	0.3003	0.3051
0.8358	48.78	4000	0.3045	0.2884
0.7647	54.88	4500	0.2866	0.2677
0.7482	60.98	5000	0.2829	0.2585
0.6943	67.07	5500	0.2782	0.2478
0.6586	73.17	6000	0.2911	0.2537
0.6425	79.27	6500	0.2817	0.2462
0.6067	85.37	7000	0.2910	0.2436
0.5974	91.46	7500	0.2875	0.2430
0.5812	97.56	8000	0.2852	0.2396