🚀 XLS-R-300M - ブルガリア語
このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BGデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.2473
- 単語誤り率 (Wer): 0.3002
📚 ドキュメント
モデルの概要
詳細情報は後日提供予定です。
想定される用途と制限
詳細情報は後日提供予定です。
学習と評価データ
詳細情報は後日提供予定です。
学習手順
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率 (learning_rate): 7.5e-05
- 学習バッチサイズ (train_batch_size): 32
- 評価バッチサイズ (eval_batch_size): 16
- 乱数シード (seed): 42
- オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類 (lr_scheduler_type): 線形
- 学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 1000
- エポック数 (num_epochs): 50.0
- 混合精度学習 (mixed_precision_training): ネイティブAMP
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
3.1589 |
3.48 |
400 |
3.0830 |
1.0 |
2.8921 |
6.96 |
800 |
2.6605 |
0.9982 |
1.3049 |
10.43 |
1200 |
0.5069 |
0.5707 |
1.1349 |
13.91 |
1600 |
0.4159 |
0.5041 |
1.0686 |
17.39 |
2000 |
0.3815 |
0.4746 |
0.999 |
20.87 |
2400 |
0.3541 |
0.4343 |
0.945 |
24.35 |
2800 |
0.3266 |
0.4132 |
0.9058 |
27.83 |
3200 |
0.2969 |
0.3771 |
0.8672 |
31.3 |
3600 |
0.2802 |
0.3553 |
0.8313 |
34.78 |
4000 |
0.2662 |
0.3380 |
0.8068 |
38.26 |
4400 |
0.2528 |
0.3181 |
0.7796 |
41.74 |
4800 |
0.2537 |
0.3073 |
0.7621 |
45.22 |
5200 |
0.2503 |
0.3036 |
0.7611 |
48.7 |
5600 |
0.2477 |
0.2991 |
フレームワークのバージョン
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
評価コマンド
mozilla-foundation/common_voice_8_0
のtest
スプリットで評価する場合
python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset mozilla-foundation/common_voice_8_0 --config bg --split test
speech-recognition-community-v2/dev_data
で評価する場合
python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 5.0 --stride_length_s 1.0
💻 使用例
基本的な使用法
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-bg"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "bg", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
評価結果(Common Voice 8 "test"の単語誤り率 (WER))
言語モデルなし |
言語モデルあり (./eval.py を実行) |
30.07 |
21.195 |
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。