🚀 XLS-R-300M - Hausa
このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.6094
- 単語誤り率 (Wer): 0.5234
🚀 クイックスタート
このモデルは、自動音声認識タスクに使用できます。以下のセクションでは、トレーニングパラメータ、評価コマンド、推論の例などの詳細を提供します。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-ha-cv8"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "ha", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
高度な使用法
このセクションには高度な使用法の具体的な説明がないため、省略します。
📚 ドキュメント
モデルの説明
詳細情報は必要です。
想定される用途と制限
詳細情報は必要です。
トレーニングと評価データ
詳細情報は必要です。
トレーニング手順
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 0.0001
- トレーニングバッチサイズ: 16
- 評価バッチサイズ: 8
- シード: 13
- 勾配累積ステップ: 2
- 総トレーニングバッチサイズ: 32
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類: cosine_with_restarts
- 学習率スケジューラのウォームアップステップ: 1000
- エポック数: 100
トレーニング結果
トレーニング損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
2.9599 |
6.56 |
400 |
2.8650 |
1.0 |
2.7357 |
13.11 |
800 |
2.7377 |
0.9951 |
1.3012 |
19.67 |
1200 |
0.6686 |
0.7111 |
1.0454 |
26.23 |
1600 |
0.5686 |
0.6137 |
0.9069 |
32.79 |
2000 |
0.5576 |
0.5815 |
0.82 |
39.34 |
2400 |
0.5502 |
0.5591 |
0.7413 |
45.9 |
2800 |
0.5970 |
0.5586 |
0.6872 |
52.46 |
3200 |
0.5817 |
0.5428 |
0.634 |
59.02 |
3600 |
0.5636 |
0.5314 |
0.6022 |
65.57 |
4000 |
0.5780 |
0.5229 |
0.5705 |
72.13 |
4400 |
0.6036 |
0.5323 |
0.5408 |
78.69 |
4800 |
0.6119 |
0.5336 |
0.5225 |
85.25 |
5200 |
0.6105 |
0.5270 |
0.5265 |
91.8 |
5600 |
0.6034 |
0.5231 |
0.5154 |
98.36 |
6000 |
0.6094 |
0.5234 |
フレームワークのバージョン
- Transformers 4.16.1
- Pytorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0
評価コマンド
mozilla-foundation/common_voice_8_0
の test
スプリットで評価するには
python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-ha-cv8 --dataset mozilla-foundation/common_voice_8_0 --config ha --split test
評価結果 (Common Voice 8 "test" の単語誤り率 (WER))
言語モデルなし |
言語モデルあり (./eval.py を実行) |
47.821 |
36.295 |
🔧 技術詳細
このセクションには具体的な技術詳細がないため、省略します。
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。