🚀 Akashpb13/Hausa_xlsr
このモデルは、facebook/wav2vec2-xls-r-300m をファインチューニングしたバージョンです。評価セット(トレーニングデータセットの10%と、無効化データ、報告データ、その他のデータ、開発データセットを統合したもの)で以下の結果を達成しています。
- 損失: 0.275118
- 単語誤り率 (Wer): 0.329955
🚀 クイックスタート
このモデルは自動音声認識タスクに使用できます。以下のコマンドを使って、特定のデータセットで評価することができます。
python eval.py --model_id Akashpb13/Hausa_xlsr --dataset mozilla-foundation/common_voice_8_0 --config ha --split test
✨ 主な機能
- 自動音声認識: ハウサ語の音声をテキストに変換することができます。
- 高い精度: 評価セットで良好な単語誤り率と文字誤り率を達成しています。
📚 ドキュメント
モデルの説明
"facebook/wav2vec2-xls-r-300m" をファインチューニングしたモデルです。
想定される用途と制限
詳細な情報はまだ提供されていません。
トレーニングと評価データ
トレーニングデータは、Common voiceのハウサ語の train.tsv、dev.tsv、invalidated.tsv、reported.tsv および other.tsv です。アップボートがダウンボートより多いポイントのみを考慮し、Common voice 7.0に含まれるすべてのデータセットを連結した後に重複を削除しました。
トレーニング手順
トレーニングデータセットを作成するために、すべての可能なデータセットを追加し、90-10の分割を使用しました。
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
パラメータ |
値 |
学習率 (learning_rate) |
0.000096 |
トレーニングバッチサイズ (train_batch_size) |
16 |
評価バッチサイズ (eval_batch_size) |
16 |
シード (seed) |
13 |
勾配累積ステップ (gradient_accumulation_steps) |
2 |
学習率スケジューラのタイプ (lr_scheduler_type) |
cosine_with_restarts |
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps) |
500 |
エポック数 (num_epochs) |
50 |
混合精度トレーニング (mixed_precision_training) |
Native AMP |
トレーニング結果
ステップ |
トレーニング損失 |
検証損失 |
単語誤り率 (Wer) |
500 |
5.175900 |
2.750914 |
1.000000 |
1000 |
1.028700 |
0.338649 |
0.497999 |
1500 |
0.332200 |
0.246896 |
0.402241 |
2000 |
0.227300 |
0.239640 |
0.395839 |
2500 |
0.175000 |
0.239577 |
0.373966 |
3000 |
0.140400 |
0.243272 |
0.356095 |
3500 |
0.119200 |
0.263761 |
0.365164 |
4000 |
0.099300 |
0.265954 |
0.353428 |
4500 |
0.084400 |
0.276367 |
0.349693 |
5000 |
0.073700 |
0.282631 |
0.343825 |
5500 |
0.068000 |
0.282344 |
0.341158 |
6000 |
0.064500 |
0.281591 |
0.342491 |
フレームワークバージョン
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.18.3
- Tokenizers 0.10.3
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。
🔧 技術詳細
モデルの評価結果
タスク |
データセット |
評価指標 |
値 |
自動音声認識 |
Common Voice 8 |
単語誤り率 (Wer) |
0.20614541257934219 |
自動音声認識 |
Common Voice 8 |
文字誤り率 (Cer) |
0.04358048053214061 |
自動音声認識 |
Robust Speech Event - Dev Data |
単語誤り率 (Wer) |
0.20614541257934219 |
自動音声認識 |
Robust Speech Event - Dev Data |
文字誤り率 (Cer) |
0.04358048053214061 |