🚀 wav2vec2-large-xls-r-300m-Urdu
このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.9889
- 単語誤り率 (Wer): 0.5607
- 文字誤り率 (Cer): 0.2370
🚀 クイックスタート
評価コマンド
mozilla-foundation/common_voice_8_0
の test
スプリットで評価するには、以下のコマンドを実行します。
python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-300m-Urdu --dataset mozilla-foundation/common_voice_8_0 --config ur --split test
💻 使用例
基本的な使用法
from datasets import load_dataset, Audio
from transformers import pipeline
model = "kingabzpro/wav2vec2-large-xls-r-300m-Urdu"
data = load_dataset("mozilla-foundation/common_voice_8_0",
"ur",
split="test",
streaming=True,
use_auth_token=True)
sample_iter = iter(data.cast_column("path",
Audio(sampling_rate=16_000)))
sample = next(sample_iter)
asr = pipeline("automatic-speech-recognition", model=model)
prediction = asr(sample["path"]["array"],
chunk_length_s=5,
stride_length_s=1)
prediction
📚 詳細ドキュメント
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率 (learning_rate): 0.0001
- 学習バッチサイズ (train_batch_size): 32
- 評価バッチサイズ (eval_batch_size): 8
- 乱数シード (seed): 42
- 勾配蓄積ステップ数 (gradient_accumulation_steps): 2
- 総学習バッチサイズ (total_train_batch_size): 64
- オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類 (lr_scheduler_type): 線形
- 学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 1000
- エポック数 (num_epochs): 200
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
文字誤り率 (Cer) |
3.6398 |
30.77 |
400 |
3.3517 |
1.0 |
1.0 |
2.9225 |
61.54 |
800 |
2.5123 |
1.0 |
0.8310 |
1.2568 |
92.31 |
1200 |
0.9699 |
0.6273 |
0.2575 |
0.8974 |
123.08 |
1600 |
0.9715 |
0.5888 |
0.2457 |
0.7151 |
153.85 |
2000 |
0.9984 |
0.5588 |
0.2353 |
0.6416 |
184.62 |
2400 |
0.9889 |
0.5607 |
0.2370 |
フレームワークのバージョン
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
Common Voice 8 "test" での評価結果 (単語誤り率 - WER)
LMなし |
LMあり (./eval.py を実行) |
52.03 |
39.89 |
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。
🔍 その他の情報
- 言語: ウルドゥー語 (ur)
- タグ: generated_from_trainer, hf-asr-leaderboard, robust-speech-event
- データセット: mozilla-foundation/common_voice_8_0
- 評価指標: 単語誤り率 (wer)
- ベースモデル: facebook/wav2vec2-xls-r-300m
- モデル情報:
- 名前: wav2vec2-large-xls-r-300m-Urdu
- 結果:
- タスク:
- タイプ: 自動音声認識 (automatic-speech-recognition)
- 名前: 音声認識 (Speech Recognition)
- データセット:
- 名前: Common Voice 8
- タイプ: mozilla-foundation/common_voice_8_0
- 引数: ur
- 評価指標:
- タイプ: 単語誤り率 (wer)
- 値: 39.89
- 名前: テスト単語誤り率 (Test WER)
- タイプ: 文字誤り率 (cer)
- 値: 16.7
- 名前: テスト文字誤り率 (Test CER)