🚀 Whisperインド英語アクセントモデル
このモデルは、インド英語アクセントのデータセットを使用して、openai/whisper-large-v3-turboをファインチューニングしたバージョンです。評価セットでは、以下の成果を達成しています。
- 損失値:0.2065
- 文字誤り率(Wer):7.5056
🚀 クイックスタート
このモデルは事前学習済みモデルです。自動音声認識タスクに使用するには、Hugging Faceのtransformers
ライブラリを利用できます。以下は簡単な使用例です。
from transformers import WhisperForConditionalGeneration, WhisperProcessor
import torch
from datasets import load_dataset
model = WhisperForConditionalGeneration.from_pretrained("your_model_path")
processor = WhisperProcessor.from_pretrained("your_model_path")
ds = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
sample = ds[0]["audio"]
input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)
✨ 主な機能
- ファインチューニング最適化:インド英語アクセントのデータセットを使用して
openai/whisper-large-v3-turbo
をファインチューニングしているため、インド英語アクセントの音声認識に最適です。
- 評価での良好な性能:評価セットでは低い損失値と文字誤り率を示し、良好な認識性能を備えています。
📦 インストール
このモデルを使用するには、以下の依存ライブラリをインストールする必要があります。
pip install transformers==4.49.0 datasets==3.3.2 tokenizers==0.21.0 torch==2.2.0a0+81ea7a4
📚 ドキュメント
モデルの説明
このモデルは、openai/whisper-large-v3-turbo
をベースに、インド英語アクセントのデータセットを使用してファインチューニングされています。ただし、現在、モデルに関する詳細情報は追加される予定です。
予想される用途と制限
現在、モデルの予想される用途と制限に関する詳細情報は追加される予定です。
学習と評価データ
現在、学習と評価データに関する詳細情報は追加される予定です。
学習と評価
学習ハイパーパラメータ
学習には、以下のハイパーパラメータが使用されています。
- 学習率(learning_rate):1e-05
- 学習バッチサイズ(train_batch_size):16
- 評価バッチサイズ(eval_batch_size):8
- 乱数シード(seed):42
- オプティマイザー(optimizer):
adamw_torch
を使用。betas=(0.9,0.999)
、epsilon=1e-08
、追加のオプティマイザーパラメータはありません。
- 学習率スケジューラータイプ(lr_scheduler_type):線形
- 学習率スケジューラーのウォームアップステップ数(lr_scheduler_warmup_steps):500
- 学習エポック数(num_epochs):5
- 混合精度学習(mixed_precision_training):ネイティブ自動混合精度(Native AMP)
学習結果
学習損失 |
エポック数 |
ステップ数 |
検証損失 |
文字誤り率(Wer) |
0.342 |
0.1943 |
1000 |
0.3226 |
14.1310 |
0.2741 |
0.3885 |
2000 |
0.3130 |
13.9553 |
0.2576 |
0.5828 |
3000 |
0.2967 |
12.9931 |
0.2825 |
0.7770 |
4000 |
0.2692 |
12.3390 |
0.2295 |
0.9713 |
5000 |
0.2565 |
11.8331 |
0.1489 |
1.1655 |
6000 |
0.2498 |
11.6933 |
0.1485 |
1.3598 |
7000 |
0.2452 |
11.1411 |
0.1385 |
1.5540 |
8000 |
0.2346 |
10.4428 |
0.1253 |
1.7483 |
9000 |
0.2254 |
10.1852 |
0.1297 |
1.9425 |
10000 |
0.2144 |
9.7109 |
0.0594 |
2.1368 |
11000 |
0.2174 |
9.5363 |
0.0629 |
2.3310 |
12000 |
0.2136 |
9.8276 |
0.0654 |
2.5253 |
13000 |
0.2102 |
9.4301 |
0.0625 |
2.7195 |
14000 |
0.2075 |
8.9432 |
0.0574 |
2.9138 |
15000 |
0.2009 |
8.7802 |
0.0276 |
3.1080 |
16000 |
0.2050 |
8.4594 |
0.0251 |
3.3023 |
17000 |
0.2046 |
8.5951 |
0.0246 |
3.4965 |
18000 |
0.2035 |
8.1187 |
0.0259 |
3.6908 |
19000 |
0.2002 |
8.0588 |
0.021 |
3.8850 |
20000 |
0.1951 |
7.9147 |
0.0072 |
4.0793 |
21000 |
0.2053 |
7.7548 |
0.0067 |
4.2735 |
22000 |
0.2085 |
7.4972 |
0.0067 |
4.4678 |
23000 |
0.2094 |
7.6970 |
0.0062 |
4.6620 |
24000 |
0.2071 |
7.7433 |
0.0046 |
4.8563 |
25000 |
0.2065 |
7.5056 |
フレームワークバージョン
- Transformers 4.49.0
- Pytorch 2.2.0a0+81ea7a4
- Datasets 3.3.2
- Tokenizers 0.21.0
📄 ライセンス
このモデルはMITライセンスの下で提供されています。