🚀 Akashpb13/xlsr_hungarian_new
このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - huデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セット(トレーニングデータセットの10%と、無効化データ、報告データ、その他のデータ、開発データセットをマージしたもの)で以下の結果を達成しています。
- 損失: 0.197464
- 単語誤り率 (Wer): 0.330094
✨ 主な機能
このモデルは、自動音声認識(Automatic Speech Recognition)タスクに特化しており、ハンガリー語の音声を高精度に認識することができます。
📦 インストール
READMEにインストール手順に関する具体的な内容が記載されていないため、このセクションは省略されます。
💻 使用例
READMEに使用例に関する具体的なコードが記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデルの説明
"facebook/wav2vec2-xls-r-300m" がファインチューニングされました。
想定される用途と制限
詳細情報が必要です。
トレーニングと評価データ
トレーニングデータ -
Common voice のハンガリー語の train.tsv、dev.tsv、invalidated.tsv、reported.tsv、および other.tsv。
Common voice 7.0で提供されるすべてのデータセットを連結した後、アップボートがダウンボートより多いポイントのみが考慮され、重複が削除されました。
トレーニング手順
トレーニングデータセットを作成するために、すべての可能なデータセットが追加され、90-10の分割が使用されました。
トレーニングハイパーパラメータ
トレーニング中に以下のハイパーパラメータが使用されました。
- 学習率 (learning_rate): 0.000095637994662983496
- トレーニングバッチサイズ (train_batch_size): 16
- 評価バッチサイズ (eval_batch_size): 16
- 乱数シード (seed): 13
- 勾配累積ステップ数 (gradient_accumulation_steps): 16
- 学習率スケジューラのタイプ (lr_scheduler_type): cosine_with_restarts
- 学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
- エポック数 (num_epochs): 100
- 混合精度トレーニング (mixed_precision_training): Native AMP
トレーニング結果
ステップ |
トレーニング損失 |
検証損失 |
単語誤り率 (Wer) |
500 |
4.785300 |
0.952295 |
0.796236 |
1000 |
0.535800 |
0.217474 |
0.381613 |
1500 |
0.258400 |
0.205524 |
0.345056 |
2000 |
0.202800 |
0.198680 |
0.336264 |
2500 |
0.182700 |
0.197464 |
0.330094 |
フレームワークのバージョン
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.18.3
- Tokenizers 0.10.3
評価コマンド
mozilla-foundation/common_voice_8_0
の test
スプリットで評価するには
python eval.py --model_id Akashpb13/xlsr_hungarian_new --dataset mozilla-foundation/common_voice_8_0 --config hu --split test
🔧 技術詳細
このモデルは、自動音声認識タスクにおいて、ハンガリー語の音声を高精度に認識するために開発されました。"facebook/wav2vec2-xls-r-300m" をベースに、Common Voice 8.0のハンガリー語データセットを使用してファインチューニングされました。トレーニングには、特定のハイパーパラメータが使用され、90-10のデータ分割を行っています。評価では、単語誤り率(Wer)と文字誤り率(Cer)が使用されています。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。