🚀 wav2vec2-bloom-speech-tgl
このモデルは、自動音声認識タスクに特化したモデルです。SIL-AI/bloom-speech - TGL (Tagalog) データセットで微調整されており、特定の言語に対する音声認識性能を向上させています。
🚀 クイックスタート
このモデルを使用するには、まずモデルのアクセスを許可する必要があります。詳細は以下のセクションを参照してください。
✨ 主な機能
📚 ドキュメント
モデルの説明
このモデルは、facebook/wav2vec2-xls-r-300m を SIL-AI/bloom-speech - TGL (Tagalog) データセットで微調整したものです。評価セットでは、以下の結果を達成しています。
- Loss: 0.9606
- Wer: 0.2457
- Cer: 0.0769
ユーザーは、推論に訓練済みモデルを使用する方法については、元のモデルを参照する必要があります。
想定される用途と制限
このモデルのユーザーは、SIL RAIL-M License に従う必要があります。
このモデルは概念実証として作成されており、特定の状況でのモデルの性能については保証されていません。
訓練と評価データ
訓練、検証、テストデータセットは同じコーパスから生成され、重複するファイルは使用されていません。
訓練手順
Hugging Face Transformers Github の例に基づいて、XLS - R の標準的な微調整が行われました。
訓練ハイパーパラメータ
訓練中に以下のハイパーパラメータが使用されました。
- learning_rate: 0.0003
- train_batch_size: 16
- eval_batch_size: 8
- seed: 42
- gradient_accumulation_steps: 2
- total_train_batch_size: 32
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e - 08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 250
- num_epochs: 1000.0
- mixed_precision_training: Native AMP
訓練結果
訓練損失 |
エポック |
ステップ |
検証損失 |
Wer |
Cer |
ログなし |
22.73 |
250 |
0.9218 |
0.5239 |
0.1605 |
2.044 |
45.45 |
500 |
0.7345 |
0.3717 |
0.0981 |
2.044 |
68.18 |
750 |
0.7742 |
0.35 |
0.0957 |
0.0713 |
90.91 |
1000 |
0.8898 |
0.3196 |
0.0883 |
0.0713 |
113.64 |
1250 |
0.9236 |
0.3478 |
0.1044 |
0.0409 |
136.36 |
1500 |
0.8082 |
0.3174 |
0.0883 |
0.0409 |
159.09 |
1750 |
0.8353 |
0.2826 |
0.0824 |
0.0287 |
181.82 |
2000 |
0.7737 |
0.2783 |
0.0859 |
0.0287 |
204.55 |
2250 |
1.1609 |
0.2891 |
0.0871 |
0.0146 |
227.27 |
2500 |
0.9606 |
0.2457 |
0.0769 |
0.0146 |
250.0 |
2750 |
0.9115 |
0.2717 |
0.0777 |
0.015 |
272.73 |
3000 |
0.8434 |
0.3130 |
0.0859 |
0.015 |
295.45 |
3250 |
1.0805 |
0.3087 |
0.0961 |
フレームワークバージョン
- Transformers 4.21.0.dev0
- Pytorch 1.9.0+cu111
- Datasets 2.2.2
- Tokenizers 0.12.1
📄 ライセンス
このモデルを取得する前にもう一つの手順があります。
このモデルはオープンアクセスで、非商用利用のみ可能で、SIL International AI & NLP RAIL - M ライセンスによってさらに権利と使用方法が指定されています。
SIL RAIL - M ライセンスは以下を規定しています。
- モデルを使用して、意図的に違法または有害な出力やコンテンツを生成したり共有したりすることはできません。特に、先住民族に対する危害や差別を目的として、またはその効果をもたらすようにモデルを使用することはできません。
- 非商用利用で生成した出力について、SIL は権利を主張せず、ユーザーは自由に使用できますが、その使用について責任を負い、ライセンスに定められた規定に違反してはなりません。
- 重みを再配布し、非商用目的でモデルを使用することができます。その場合、ライセンスと同じ使用制限を含め、SIL International AI & NLP RAIL - M のコピーをすべてのユーザーに共有する必要があります(ライセンス全体を注意深く読んでください)。完全なライセンスはこちらをご覧ください: https://huggingface.co/spaces/sil-ai/model-license
以下の「リポジトリにアクセス」をクリックすることで、あなたの連絡先情報(メールアドレスとユーザー名)がモデルの作成者と共有されることに同意することになります。
このモデルの商用利用について質問がある場合は、メールでお問い合わせください。
⚠️ 重要提示
このモデルを使用するには、SIL RAIL - M ライセンスに同意する必要があります。また、特定の状況でのモデルの性能については保証されていません。
属性 |
详情 |
モデルタイプ |
自動音声認識 |
訓練データ |
bloom_speech |