🚀 wav2vec2-large-xlsr-53-punjabi
このモデルは、Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10 を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 1.2101
- 単語誤り率 (Wer): 0.4939
- 文字誤り率 (Cer): 0.2238
🚀 クイックスタート
評価コマンド
mozilla-foundation/common_voice_8_0
の test
スプリットで評価するには
python eval.py --model_id kingabzpro/wav2vec2-large-xlsr-53-punjabi --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test
💻 使用例
基本的な使用法
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xlsr-53-punjabi"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "pa-IN", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
📚 詳細ドキュメント
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 0.0003
- トレーニングバッチサイズ: 16
- 評価バッチサイズ: 8
- シード: 42
- 勾配累積ステップ: 2
- 総トレーニングバッチサイズ: 32
- オプティマイザ: Adam (ベータ=(0.9, 0.999)、イプシロン=1e-08)
- 学習率スケジューラタイプ: 線形
- 学習率スケジューラウォームアップステップ: 200
- エポック数: 30
- 混合精度トレーニング: Native AMP
トレーニング結果
トレーニング損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
文字誤り率 (Cer) |
11.0563 |
3.7 |
100 |
1.9492 |
0.7123 |
0.3872 |
1.6715 |
7.41 |
200 |
1.3142 |
0.6433 |
0.3086 |
0.9117 |
11.11 |
300 |
1.2733 |
0.5657 |
0.2627 |
0.666 |
14.81 |
400 |
1.2730 |
0.5598 |
0.2534 |
0.4225 |
18.52 |
500 |
1.2548 |
0.5300 |
0.2399 |
0.3209 |
22.22 |
600 |
1.2166 |
0.5229 |
0.2372 |
0.2678 |
25.93 |
700 |
1.1795 |
0.5041 |
0.2276 |
0.2088 |
29.63 |
800 |
1.2101 |
0.4939 |
0.2238 |
フレームワークバージョン
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。
📦 モデル情報
属性 |
详情 |
モデルタイプ |
自動音声認識 (Automatic Speech Recognition) |
トレーニングデータ |
mozilla-foundation/common_voice_8_0 |
評価指標 |
単語誤り率 (Wer)、文字誤り率 (Cer) |
ベースモデル |
Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10 |
モデル名 |
wav2vec2-punjabi-V8-Abid |
タスク |
自動音声認識 (Automatic Speech Recognition) |
データセット |
Common Voice pa-IN (mozilla-foundation/common_voice_8_0, pa-IN) |
評価結果 (Test WER With LM) |
36.02 |
評価結果 (Test CER With LM) |
12.81 |