🚀 wav2vec2-large-xls-r-300m-as
このモデルは、common_voiceデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 1.9068
- 単語誤り率 (Wer): 0.6679
🚀 クイックスタート
このモデルは自動音声認識タスクに使用できます。以下のコードや手順を参考にしてください。
✨ 主な機能
- コモンボイスデータセットでファインチューニングされた自動音声認識モデル。
- 評価セットで一定の精度を達成。
📦 インストール
このモデルを使用するためには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してください。
pip install transformers datasets torch torchaudio
💻 使用例
基本的な使用法
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-as"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "as", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
高度な使用法
評価コマンド
mozilla-foundation/common_voice_7_0
のtest
スプリットで評価するには、以下のコマンドを使用します。
python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-as --dataset mozilla-foundation/common_voice_7_0 --config as --split test
言語モデルを使用した推論
Common Voice 7 "test" (WER) の評価結果
言語モデルなし |
言語モデルあり ( ./eval.py を実行) |
67 |
56.995 |
📚 ドキュメント
モデルの説明
このモデルは、facebookのwav2vec2-xls-r-300mをベースに、コモンボイスデータセットでファインチューニングされた自動音声認識モデルです。
想定される用途と制限
詳細な情報は提供されていません。
学習と評価データ
詳細な情報は提供されていません。
学習手順
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率 (learning_rate): 0.0003
- 学習バッチサイズ (train_batch_size): 16
- 評価バッチサイズ (eval_batch_size): 8
- 乱数シード (seed): 42
- 勾配累積ステップ (gradient_accumulation_steps): 2
- 総学習バッチサイズ (total_train_batch_size): 32
- オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類 (lr_scheduler_type): linear
- 学習率スケジューラのウォームアップ比率 (lr_scheduler_warmup_ratio): 0.12
- エポック数 (num_epochs): 240
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
5.7027 |
21.05 |
400 |
3.4157 |
1.0 |
1.1638 |
42.1 |
800 |
1.3498 |
0.7461 |
0.2266 |
63.15 |
1200 |
1.6147 |
0.7273 |
0.1473 |
84.21 |
1600 |
1.6649 |
0.7108 |
0.1043 |
105.26 |
2000 |
1.7691 |
0.7090 |
0.0779 |
126.31 |
2400 |
1.8300 |
0.7009 |
0.0613 |
147.36 |
2800 |
1.8681 |
0.6916 |
0.0471 |
168.41 |
3200 |
1.8567 |
0.6875 |
0.0343 |
189.46 |
3600 |
1.9054 |
0.6840 |
0.0265 |
210.51 |
4000 |
1.9020 |
0.6786 |
0.0219 |
231.56 |
4400 |
1.9068 |
0.6679 |
フレームワークのバージョン
- Transformers 4.16.0
- Pytorch 1.10.0+cu111
- Datasets 1.17.0
- Tokenizers 0.10.3
🔧 技術詳細
このモデルは、Transformerベースのwav2vec2アーキテクチャを使用しています。学習には、Adamオプティマイザと線形学習率スケジューラが使用されています。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。