🚀 XLS - R - 300M - ウルドゥー語モデル
このモデルは自動音声認識用のモデルで、事前学習モデルを微調整して作成されました。ウルドゥー語の音声認識タスクで特定の評価結果を得ており、関連する音声認識シーンに適用できます。
🚀 クイックスタート
このモデルは facebook/wav2vec2 - xls - r - 300m を MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR データセットで微調整したバージョンです。評価セットでは以下の結果を得ています。
評価コマンド
mozilla - foundation/common_voice_7_0
データセットの test
分割で評価を行う:
python eval.py \
--model_id infinitejoy/wav2vec2-large-xls-r-300m-urdu --dataset speech-recognition-community-v2/dev_data \
--config ur --split validation --chunk_length_s 10 --stride_length_s 1
推論例
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "infinitejoy/wav2vec2-large-xls-r-300m-urdu"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "ur", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
コモンボイス 7 “テスト” セットでの評価結果(字錯率)
ドキュメントで具体的な評価結果の数値は明記されていません。
✨ 主な機能
- 微調整モデル:
facebook/wav2vec2 - xls - r - 300m
モデルをウルドゥー語データセットで微調整しています。
- 多フレームワーク対応:Transformers、Pytorch、Datasets、Tokenizers などのフレームワークと互換性があります。
🔧 技術詳細
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました。
- 学習率:7.5e - 05
- 学習バッチサイズ:8
- 評価バッチサイズ:8
- 乱数シード:42
- 勾配累積ステップ数:4
- 総学習バッチサイズ:32
- オプティマイザ:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学習率スケジューラタイプ:線形
- 学習率スケジューラのウォームアップステップ数:2000
- 学習エポック数:50.0
- 混合精度学習:Native AMP
フレームワークバージョン
- Transformers 4.16.0.dev0
- Pytorch 1.10.0 + cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
📄 ライセンス
このモデルは Apache - 2.0 ライセンスを使用しています。
📋 モデル情報テーブル
属性 |
詳細 |
モデルタイプ |
自動音声認識モデル |
学習データ |
MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR データセット |
モデル名 |
XLS - R - 300M - ウルドゥー語 |
評価指標(テストセットの字錯率) |
105.66 |
評価指標(テストセットの文字誤り率) |
434.011 |