🚀 whisper-small-uz-en-ru-lang-id
このモデルは、「mozilla-foundation/common_voice_16_1」(uz/en/ru) データセットで openai/whisper-small をファインチューニングしたバージョンです。
トレーニング中の検証セットでは、以下の結果を達成しています。
- 損失: 0.2065
- 正解率: 0.9747
- F1値: 0.9746
テスト(評価)データセットでの正解率は92.4%です。
🚀 クイックスタート
このモデルは、音声分類タスクに使用できます。具体的な使い方は、以下のセクションを参照してください。
📚 ドキュメント
モデルの説明
詳細情報は後日追加予定です。
想定される用途と制限
詳細情報は後日追加予定です。
トレーニングと評価データ
common_voice_train_uz = load_dataset("mozilla-foundation/common_voice_16_1", "uz", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_train_ru = load_dataset("mozilla-foundation/common_voice_16_1", "ru", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_train_en = load_dataset("mozilla-foundation/common_voice_16_1", "en", split='train', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_uz = load_dataset("mozilla-foundation/common_voice_16_1", "uz", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_ru = load_dataset("mozilla-foundation/common_voice_16_1", "ru", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
common_voice_valid_en = load_dataset("mozilla-foundation/common_voice_16_1", "en", split='validation', trust_remote_code=True, token=env('HUGGING_TOKEN'), streaming=True)
...
common_voice['train'] = concatenate_datasets([common_voice_train_uz, common_voice_train_ru, common_voice_train_en])
トレーニング手順
transformersのTrainerを使用しました。トレーニングと評価のプロセスは、以下のGitHubリポジトリに保存されているJupyterノートブックに記載されています。
https://github.com/fitlemon/whisper-small-uz-en-ru-lang-id
トレーニングハイパーパラメータ
トレーニング中に以下のハイパーパラメータが使用されました。
- 学習率: 3e-05
- トレーニングバッチサイズ: 2
- 評価バッチサイズ: 2
- シード: 42
- 勾配累積ステップ: 4
- 総トレーニングバッチサイズ: 8
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類: 線形
- 学習率スケジューラのウォームアップ比率: 0.1
- トレーニングステップ: 9000
- 混合精度トレーニング: Native AMP
トレーニング結果
トレーニング損失 |
エポック |
ステップ |
検証損失 |
正解率 |
F1値 |
0.0252 |
1 |
3000 |
0.3089 |
0.953 |
0.9525 |
0.0357 |
2 |
6000 |
0.1732 |
0.964 |
0.9637 |
0.0 |
3 |
9000 |
0.2065 |
0.9747 |
0.9746 |
フレームワークのバージョン
- Transformers 4.38.2
- Pytorch 2.2.1+cu121
- Datasets 2.17.1
- Tokenizers 0.15.2
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。