wav2vec2-large-xls-r-300m-bgオープンソース音声認識モデル - ブルガリア語音声を高精度に認識する

ホーム

Wav2vec2 Large Xls R 300m Bg

anuragshasによって開発

facebook/wav2vec2-xls-r-300mをCommon Voice 8ブルガリア語データセットでファインチューニングした自動音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ブルガリア語音声認識 #低単語誤り率 #マルチシーン適応

ダウンロード数 1,469

リリース時間 : 3/2/2022

モデル概要

これはブルガリア語に最適化された自動音声認識(ASR)モデルで、XLS-R-300Mアーキテクチャを基に、Mozilla Common Voice 8データセットでファインチューニングされています。

モデル特徴

マルチデータセット評価

Common Voice 8とロバスト音声コンペティションデータセットで包括的に評価

高性能

Common Voice 8テストセットで21.195%のWERと4.786%のCERを達成

最適化トレーニング

50エポックにわたる注意深いチューニングプロセスで、損失と誤り率を段階的に低減

モデル能力

ブルガリア語音声認識

音声からテキストへの変換

長時間音声処理(チャンク処理対応)

使用事例

音声文字起こし

音声メモ文字起こし

ブルガリア語の音声メモを検索可能なテキストに変換

約80%の精度 (WER 21.195%)

音声アシスタント

ブルガリア語音声アシスタントに音声認識機能を提供

音声分析

音声コンテンツ分析

ブルガリア語音声コンテンツを分析してキー情報を抽出

🚀 XLS-R-300M - ブルガリア語

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BGデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.2473
単語誤り率 (Wer): 0.3002

📚 ドキュメント

モデルの概要

詳細情報は後日提供予定です。

想定される用途と制限

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 7.5e-05
学習バッチサイズ (train_batch_size): 32
評価バッチサイズ (eval_batch_size): 16
乱数シード (seed): 42
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 1000
エポック数 (num_epochs): 50.0
混合精度学習 (mixed_precision_training): ネイティブAMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.1589	3.48	400	3.0830	1.0
2.8921	6.96	800	2.6605	0.9982
1.3049	10.43	1200	0.5069	0.5707
1.1349	13.91	1600	0.4159	0.5041
1.0686	17.39	2000	0.3815	0.4746
0.999	20.87	2400	0.3541	0.4343
0.945	24.35	2800	0.3266	0.4132
0.9058	27.83	3200	0.2969	0.3771
0.8672	31.3	3600	0.2802	0.3553
0.8313	34.78	4000	0.2662	0.3380
0.8068	38.26	4400	0.2528	0.3181
0.7796	41.74	4800	0.2537	0.3073
0.7621	45.22	5200	0.2503	0.3036
0.7611	48.7	5600	0.2477	0.2991

フレームワークのバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

評価コマンド

mozilla-foundation/common_voice_8_0のtestスプリットで評価する場合

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset mozilla-foundation/common_voice_8_0 --config bg --split test

speech-recognition-community-v2/dev_dataで評価する場合

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 5.0 --stride_length_s 1.0

💻 使用例

基本的な使用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-bg"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "bg", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
# => "и надутият му ката блоонкурем взе да се събира"