🚀 XLS - R - 300M キルギス語 CV8
このモデルは、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - KY データセットで [facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) をファインチューニングしたバージョンです。検証セットでは以下の結果を達成しています。
- 損失: 0.5497
- 単語誤り率 (Wer): 0.2945
- 文字誤り率 (Cer): 0.0791
📚 ドキュメント
モデルの説明
モデルアーキテクチャの説明については、[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) を参照してください。
モデルの語彙は、句読点を取り除いたキリル文字アルファベットで構成されています。
kenlm言語モデルは、訓練コーパスと無効化コーパスの分割テキストを使用して構築されています。
想定される用途と制限
このモデルは、以下のような低忠実度のユースケースに役立つと考えられます。
- ドラフト動画のキャプション
- 録画された放送のインデックス付け
このモデルは、アクセシビリティ目的でのライブキャプションの代替として使用するには十分な信頼性がありません。また、Common Voiceデータセットの貢献者や他の話者のプライバシーを侵害するような方法で使用してはなりません。
訓練と評価データ
訓練データとして、Common Voiceの公式分割の train
、dev
、other
の組み合わせが使用されました。検証データとして公式 test
分割の半分が使用され、最終評価には完全な test
セットが使用されました。
訓練手順
XLS - Rモデルの特徴抽出層は凍結され、キルギス語CV8のサンプル文で最終的なCTC/LM層がチューニングされます。学習率は、初期のウォームアップフェーズを500ステップ、最大0.0001、そして残りの8100ステップ(300エポック)で0に向かって冷却するランプ方式が使用されます。
訓練ハイパーパラメータ
訓練中に以下のハイパーパラメータが使用されました。
パラメータ |
値 |
学習率 (learning_rate) |
0.0001 |
訓練バッチサイズ (train_batch_size) |
32 |
評価バッチサイズ (eval_batch_size) |
8 |
シード (seed) |
42 |
勾配累積ステップ (gradient_accumulation_steps) |
4 |
総訓練バッチサイズ (total_train_batch_size) |
128 |
オプティマイザ (optimizer) |
Adam (betas=(0.9, 0.999), epsilon=1e - 08) |
学習率スケジューラの種類 (lr_scheduler_type) |
線形 (linear) |
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps) |
500 |
エポック数 (num_epochs) |
300.0 |
混合精度訓練 (mixed_precision_training) |
ネイティブAMP |
訓練結果
訓練損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
文字誤り率 (Cer) |
3.1079 |
18.51 |
500 |
2.6795 |
0.9996 |
0.9825 |
0.8506 |
37.04 |
1000 |
0.4323 |
0.3718 |
0.0961 |
0.6821 |
55.55 |
1500 |
0.4105 |
0.3311 |
0.0878 |
0.6091 |
74.07 |
2000 |
0.4281 |
0.3168 |
0.0851 |
0.5429 |
92.58 |
2500 |
0.4525 |
0.3147 |
0.0842 |
0.5063 |
111.11 |
3000 |
0.4619 |
0.3144 |
0.0839 |
0.4661 |
129.62 |
3500 |
0.4660 |
0.3039 |
0.0818 |
0.4353 |
148.15 |
4000 |
0.4695 |
0.3083 |
0.0820 |
0.4048 |
166.65 |
4500 |
0.4909 |
0.3085 |
0.0824 |
0.3852 |
185.18 |
5000 |
0.5074 |
0.3048 |
0.0812 |
0.3567 |
203.69 |
5500 |
0.5111 |
0.3012 |
0.0810 |
0.3451 |
222.22 |
6000 |
0.5225 |
0.2982 |
0.0804 |
0.325 |
240.73 |
6500 |
0.5270 |
0.2955 |
0.0796 |
0.3089 |
259.25 |
7000 |
0.5381 |
0.2929 |
0.0793 |
0.2941 |
277.76 |
7500 |
0.5565 |
0.2923 |
0.0794 |
0.2945 |
296.29 |
8000 |
0.5495 |
0.2951 |
0.0789 |
フレームワークバージョン
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。
🔍 モデル情報
プロパティ |
詳細 |
モデルタイプ |
自動音声認識 (Automatic Speech Recognition) |
訓練データ |
mozilla - foundation/common_voice_8_0 |
ベースモデル |
facebook/wav2vec2 - xls - r - 300m |
モデル指標
タスク |
データセット |
評価指標 |
値 |
自動音声認識 (Automatic Speech Recognition) |
Common Voice 8 (mozilla - foundation/common_voice_8_0, ky) |
単語誤り率 (Wer) (with LM) |
19.01 |
自動音声認識 (Automatic Speech Recognition) |
Common Voice 8 (mozilla - foundation/common_voice_8_0, ky) |
文字誤り率 (Cer) (with LM) |
5.38 |
自動音声認識 (Automatic Speech Recognition) |
Common Voice 8 (mozilla - foundation/common_voice_8_0, ky) |
単語誤り率 (Wer) (no LM) |
31.28 |
自動音声認識 (Automatic Speech Recognition) |
Common Voice 8 (mozilla - foundation/common_voice_8_0, ky) |
文字誤り率 (Cer) (no LM) |
7.66 |