🚀 sammy786/wav2vec2-xlsr-georgian
このモデルは、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - kaデータセットでfacebook/wav2vec2-xls - r - 1bをファインチューニングしたバージョンです。評価セット(トレインデータセットの10%を他のデータセットとdevデータセットと結合したもの)で以下の結果を達成しています。
- 損失: 10.54
- 単語誤り率(Wer): 27.53
✨ 主な機能
このモデルは自動音声認識(Automatic Speech Recognition)に特化しており、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - kaデータセットでファインチューニングされた結果、特定の評価セットで良好な性能を示しています。
📦 インストール
インストールに関する具体的な手順は提供されていません。
📚 ドキュメント
モデルの説明
"facebook/wav2vec2-xls - r - 1b" がファインチューニングされました。
想定される用途と制限
詳細な情報は必要です。
トレーニングと評価データ
トレーニングデータ -
Common voice Finnishのtrain.tsv、dev.tsvおよびother.tsv
トレーニング手順
トレーニングデータセットを作成するために、可能なすべてのデータセットを追加し、90 - 10の分割を行いました。
トレーニングハイパーパラメータ
トレーニング中に以下のハイパーパラメータが使用されました。
- 学習率(learning_rate): 0.000045637994662983496
- トレーニングバッチサイズ(train_batch_size): 8
- 評価バッチサイズ(eval_batch_size): 16
- シード(seed): 13
- 勾配累積ステップ(gradient_accumulation_steps): 4
- 総トレーニングバッチサイズ(total_train_batch_size): 32
- オプティマイザ(optimizer): Adam(ベータ=(0.9, 0.999)、イプシロン=1e - 08)
- 学習率スケジューラの種類(lr_scheduler_type): cosine_with_restarts
- 学習率スケジューラのウォームアップステップ(lr_scheduler_warmup_steps): 500
- エポック数(num_epochs): 30
- 混合精度トレーニング(mixed_precision_training): Native AMP
トレーニング結果
ステップ |
トレーニング損失 |
検証損失 |
単語誤り率(Wer) |
200 |
4.152100 |
0.823672 |
0.967814 |
400 |
0.889500 |
0.196740 |
0.444792 |
600 |
0.493700 |
0.155659 |
0.366115 |
800 |
0.328000 |
0.138066 |
0.358069 |
1000 |
0.260600 |
0.119236 |
0.324989 |
1200 |
0.217200 |
0.114050 |
0.313366 |
1400 |
0.188800 |
0.112600 |
0.302190 |
1600 |
0.166900 |
0.111154 |
0.295485 |
1800 |
0.155500 |
0.109963 |
0.286544 |
2000 |
0.140400 |
0.107587 |
0.277604 |
2200 |
0.142600 |
0.105662 |
0.277157 |
2400 |
0.135400 |
0.105414 |
0.275369 |
フレームワークのバージョン
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
評価コマンド
mozilla - foundation/common_voice_8_0
の test
スプリットで評価する場合
python eval.py --model_id sammy786/wav2vec2-xlsr-georgian --dataset mozilla-foundation/common_voice_8_0 --config ka --split test
🔧 技術詳細
このモデルは自動音声認識のために設計されており、"facebook/wav2vec2-xls - r - 1b" をベースにMOZILLA - FOUNDATION/COMMON_VOICE_8_0 - kaデータセットでファインチューニングされました。トレーニングデータセットの作成には、可能なすべてのデータセットを結合し、90 - 10の分割を行いました。トレーニングには特定のハイパーパラメータが使用され、混合精度トレーニングも適用されています。
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。
📊 モデルの指標
タスク |
データセット |
評価指標 |
値 |
自動音声認識 |
Common Voice 8(MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ka) |
テスト単語誤り率(Test WER) |
23.9 |
自動音声認識 |
Common Voice 8(MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ka) |
テスト文字誤り率(Test CER) |
3.59 |
自動音声認識 |
Robust Speech Event - Dev Data |
テスト単語誤り率(Test WER) |
75.07 |
自動音声認識 |
Robust Speech Event - Test Data |
テスト単語誤り率(Test WER) |
74.41 |