🚀 wav2vec2-large-xls-r-300m-elモデル
このモデルは自動音声認識技術に基づいており、[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)モデルをMOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ELデータセットで微調整したものです。音声認識タスクで良好な結果を得ることができます。
🚀 クイックスタート
このモデルは、[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)をMOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ELデータセットで微調整したバージョンです。評価セットでは以下の結果を得ています。
- 損失値:0.3218
- 単語誤り率(Wer):0.3095
✨ 主な機能
- 事前学習モデル[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)を微調整し、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ELデータセットで良好な性能を発揮します。
- 言語モデル(LM)を使用した場合と使用しない場合の評価結果を提供しています。
📦 インストール
ドキュメントにインストールに関する内容は記載されていません。Hugging Faceプラットフォームの一般的なインストール方法を参考にしてください。
💻 使用例
基本的な使用法
eval.py
を使って評価する方法:
huggingface-cli login # Hugging Faceにログインして、Common Voice v8へのアクセス認証トークンを取得
# 言語モデルを使用して実行
!python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-el --dataset mozilla-foundation/common_voice_8_0 --config el --split test
# 言語モデルを使用せずに実行
!python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-el --dataset mozilla-foundation/common_voice_8_0 --config el --split test --greedy
📚 ドキュメント
学習と評価データ
評価はノートブックで行われました。リポジトリ内のnotebook_evaluation_wav2vec2_el.ipynb
を参照することができます。
言語モデルを使用しない場合の単語誤り率(WER)と文字誤り率(CER):
- 単語誤り率(wer) = 31.1294 %
- 文字誤り率(cer) = 7.9509 %
言語モデルを使用する場合の単語誤り率(WER)と文字誤り率(CER):
- 単語誤り率(wer) = 20.7340 %
- 文字誤り率(cer) = 6.0466 %
学習過程
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました。
- 学習率:5e - 05
- 学習バッチサイズ:32
- 評価バッチサイズ:8
- 乱数シード:42
- 勾配累積ステップ数:2
- 総学習バッチサイズ:64
- オプティマイザ:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学習率スケジューラタイプ:線形
- 学習率スケジューラウォームアップステップ数:400
- 学習エポック数:80.0
- 混合精度学習:ネイティブ自動混合精度(Native AMP)
学習結果
学習損失 |
エポック数 |
ステップ数 |
検証損失 |
単語誤り率(Wer) |
6.3683 |
8.77 |
500 |
3.1280 |
1.0 |
1.9915 |
17.54 |
1000 |
0.6600 |
0.6444 |
0.6565 |
26.32 |
1500 |
0.4208 |
0.4486 |
0.4484 |
35.09 |
2000 |
0.3885 |
0.4006 |
0.3573 |
43.86 |
2500 |
0.3548 |
0.3626 |
0.3063 |
52.63 |
3000 |
0.3375 |
0.3430 |
0.2751 |
61.4 |
3500 |
0.3359 |
0.3241 |
0.2511 |
70.18 |
4000 |
0.3222 |
0.3108 |
0.2361 |
78.95 |
4500 |
0.3205 |
0.3084 |
フレームワークバージョン
- Transformers 4.17.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技術詳細
このモデルは、[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)モデルをMOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ELデータセットで微調整したものです。学習率やバッチサイズなどの一連のハイパーパラメータを調整することで、評価セットで良好な性能を得ています。また、言語モデルを使用する場合と使用しない場合の評価方法を提供しており、異なるシナリオのニーズに対応しています。
📄 ライセンス
このモデルはApache - 2.0ライセンスを使用しています。
📋 モデル情報
属性 |
詳細 |
モデルタイプ |
自動音声認識モデル |
学習データ |
mozilla - foundation/common_voice_8_0 |