🚀 sammy786/wav2vec2-xlsr-czech
このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - csデータセットでfacebook/wav2vec2-xls-r-1bをファインチューニングしたバージョンです。評価セット(トレインデータセットの10%を他のデータセットとdevデータセットと結合したもの)で以下の結果を達成しています。
- 損失: 7.26
- 単語誤り率 (Wer): 19.32
✨ 主な機能
このモデルは自動音声認識タスクに特化しており、チェコ語の音声を高精度に認識することができます。
📦 インストール
READMEにインストール手順は記載されていません。
📚 ドキュメント
モデルの説明
"facebook/wav2vec2-xls-r-1b"をファインチューニングしました。
想定される用途と制限
詳細な情報は必要です。
トレーニングと評価データ
トレーニングデータ -
Common voice Finnishのtrain.tsv、dev.tsv、invalidated.tsvおよびother.tsv
トレーニング手順
トレーニングデータセットを作成するために、可能なすべてのデータセットを追加し、90-10の分割を使用しました。
トレーニングハイパーパラメータ
トレーニング中に以下のハイパーパラメータが使用されました。
- 学習率 (learning_rate): 0.000045637994662983496
- トレーニングバッチサイズ (train_batch_size): 8
- 評価バッチサイズ (eval_batch_size): 16
- シード (seed): 13
- 勾配累積ステップ (gradient_accumulation_steps): 4
- 総トレーニングバッチサイズ (total_train_batch_size): 32
- オプティマイザ (optimizer): Adam(ベータ=(0.9,0.999)、イプシロン=1e-08)
- 学習率スケジューラタイプ (lr_scheduler_type): cosine_with_restarts
- 学習率スケジューラウォームアップステップ (lr_scheduler_warmup_steps): 500
- エポック数 (num_epochs): 7
- 混合精度トレーニング (mixed_precision_training): Native AMP
トレーニング結果
ステップ |
トレーニング損失 |
検証損失 |
単語誤り率 (Wer) |
200 |
6.654600 |
3.329486 |
1.000000 |
400 |
1.700600 |
0.317266 |
0.409446 |
600 |
0.767400 |
0.211371 |
0.313981 |
800 |
0.718600 |
0.167771 |
0.280676 |
1000 |
0.661700 |
0.142229 |
0.258938 |
1200 |
0.594400 |
0.137321 |
0.256275 |
1400 |
0.583900 |
0.132922 |
0.248418 |
1600 |
0.565100 |
0.117214 |
0.238640 |
1800 |
0.369600 |
0.116954 |
0.238291 |
2000 |
0.292800 |
0.109973 |
0.227509 |
2200 |
0.255400 |
0.104955 |
0.228120 |
2400 |
0.266800 |
0.097268 |
0.220525 |
2600 |
0.232700 |
0.096055 |
0.213584 |
2800 |
0.213700 |
0.097770 |
0.218866 |
3000 |
0.209900 |
0.091633 |
0.210485 |
3200 |
0.196800 |
0.090342 |
0.208739 |
3400 |
0.200500 |
0.082326 |
0.204767 |
3600 |
0.176800 |
0.085491 |
0.204068 |
3800 |
0.170000 |
0.081289 |
0.201231 |
4000 |
0.166200 |
0.080762 |
0.200227 |
4200 |
0.161700 |
0.076671 |
0.198001 |
4400 |
0.147000 |
0.077383 |
0.196997 |
4600 |
0.141900 |
0.076057 |
0.195862 |
4800 |
0.144800 |
0.074612 |
0.195120 |
5000 |
0.138900 |
0.073138 |
0.193985 |
5200 |
0.143900 |
0.072802 |
0.192894 |
5400 |
0.131100 |
0.072764 |
0.193723 |
5600 |
0.137000 |
0.072697 |
0.193679 |
5800 |
0.133300 |
0.072651 |
0.193286 |
フレームワークのバージョン
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
評価コマンド
mozilla-foundation/common_voice_8_0
のtest
スプリットで評価するには
python eval.py --model_id sammy786/wav2vec2-xlsr-czech --dataset mozilla-foundation/common_voice_8_0 --config cs --split test
🔧 技術詳細
このモデルは、チェコ語の自動音声認識タスクに特化しており、"facebook/wav2vec2-xls-r-1b"をベースにファインチューニングされています。トレーニングにはCommon voice Finnishのデータセットが使用され、特定のハイパーパラメータを設定して最適化されています。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
モデル情報
属性 |
詳情 |
モデルタイプ |
自動音声認識モデル |
トレーニングデータ |
Common voice Finnishのtrain.tsv、dev.tsv、invalidated.tsvおよびother.tsv |