🚀 wav2vec2-large-xls-r-300m-ia
このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.1452
- 単語誤り率 (Wer): 0.1253
🚀 クイックスタート
このモデルは、自動音声認識タスクに適用できます。以下のセクションでは、トレーニング手順や評価方法などの詳細を説明します。
📚 ドキュメント
トレーニング手順
トレーニングは Google Colab で行われ、リポジトリに提供されているトレーニングノートブックを使用します。
トレーニングと評価データ
言語モデルは、データセット(Interlingua 用の Common Voice 8.0)のトレーニング + 検証分割の処理済み文のテキストから作成されます。評価はノートブックで行われ、リポジトリ内の "notebook_evaluation_wav2vec2_ia.ipynb" で確認できます。
言語モデルを使用しない場合のテスト結果
- 単語誤り率 (wer): 20.1776 %
- 文字誤り率 (cer): 4.7205 %
言語モデルを使用した場合のテスト結果
- 単語誤り率 (wer): 8.6074 %
- 文字誤り率 (cer): 2.4147 %
eval.py を使用した評価
huggingface-cli login # Hugging Faceにログインして、Common Voice v8にアクセスするための認証トークンを取得
# 言語モデルを使用して実行
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test
# 言語モデルを使用せずに実行
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test --greedy
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
属性 |
詳細 |
学習率 (learning_rate) |
3e-05 |
トレーニングバッチサイズ (train_batch_size) |
16 |
評価バッチサイズ (eval_batch_size) |
4 |
乱数シード (seed) |
42 |
勾配累積ステップ数 (gradient_accumulation_steps) |
2 |
総トレーニングバッチサイズ (total_train_batch_size) |
32 |
オプティマイザ (optimizer) |
Adam (betas=(0.9,0.999), epsilon=1e-08) |
学習率スケジューラのタイプ (lr_scheduler_type) |
線形 (linear) |
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps) |
400 |
エポック数 (num_epochs) |
30 |
混合精度トレーニング (mixed_precision_training) |
Native AMP |
トレーニング結果
トレーニング損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
7.432 |
1.87 |
400 |
2.9636 |
1.0 |
2.6922 |
3.74 |
800 |
2.2111 |
0.9977 |
1.2581 |
5.61 |
1200 |
0.4864 |
0.4028 |
0.6232 |
7.48 |
1600 |
0.2807 |
0.2413 |
0.4479 |
9.35 |
2000 |
0.2219 |
0.1885 |
0.3654 |
11.21 |
2400 |
0.1886 |
0.1606 |
0.323 |
13.08 |
2800 |
0.1716 |
0.1444 |
0.2935 |
14.95 |
3200 |
0.1687 |
0.1443 |
0.2707 |
16.82 |
3600 |
0.1632 |
0.1382 |
0.2559 |
18.69 |
4000 |
0.1507 |
0.1337 |
0.2433 |
20.56 |
4400 |
0.1572 |
0.1358 |
0.2338 |
22.43 |
4800 |
0.1489 |
0.1305 |
0.2258 |
24.3 |
5200 |
0.1485 |
0.1278 |
0.2218 |
26.17 |
5600 |
0.1470 |
0.1272 |
0.2169 |
28.04 |
6000 |
0.1470 |
0.1270 |
0.2117 |
29.91 |
6400 |
0.1452 |
0.1253 |
フレームワークバージョン
- Transformers 4.17.0.dev0
- Pytorch 1.10.0+cu111
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。