🚀 Whisper印度英語口音模型
本模型是基於印度英語口音數據集對openai/whisper-large-v3-turbo進行微調得到的版本。它在評估集上取得了以下成果:
- 損失值:0.2065
- 字錯率(Wer):7.5056
🚀 快速開始
本模型是預訓練模型,若要使用它進行自動語音識別任務,可藉助Hugging Face的transformers
庫。以下是簡單的使用示例:
from transformers import WhisperForConditionalGeneration, WhisperProcessor
import torch
from datasets import load_dataset
model = WhisperForConditionalGeneration.from_pretrained("your_model_path")
processor = WhisperProcessor.from_pretrained("your_model_path")
ds = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
sample = ds[0]["audio"]
input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)
✨ 主要特性
- 微調優化:基於印度英語口音數據集對
openai/whisper-large-v3-turbo
進行微調,更適合印度英語口音的語音識別。
- 評估表現良好:在評估集上有較低的損失值和字錯率,具備較好的識別性能。
📦 安裝指南
若要使用本模型,需安裝以下依賴庫:
pip install transformers==4.49.0 datasets==3.3.2 tokenizers==0.21.0 torch==2.2.0a0+81ea7a4
📚 詳細文檔
模型描述
本模型是在openai/whisper-large-v3-turbo
基礎上,針對印度英語口音數據集進行微調得到的。不過目前關於模型的更多詳細信息有待補充。
預期用途與限制
目前關於模型的預期用途和限制的更多信息有待補充。
訓練和評估數據
目前關於訓練和評估數據的更多信息有待補充。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):1e-05
- 訓練批次大小(train_batch_size):16
- 評估批次大小(eval_batch_size):8
- 隨機種子(seed):42
- 優化器(optimizer):使用
adamw_torch
,其中betas=(0.9,0.999)
,epsilon=1e-08
,無額外優化器參數
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):500
- 訓練輪數(num_epochs):5
- 混合精度訓練(mixed_precision_training):原生自動混合精度(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
字錯率(Wer) |
0.342 |
0.1943 |
1000 |
0.3226 |
14.1310 |
0.2741 |
0.3885 |
2000 |
0.3130 |
13.9553 |
0.2576 |
0.5828 |
3000 |
0.2967 |
12.9931 |
0.2825 |
0.7770 |
4000 |
0.2692 |
12.3390 |
0.2295 |
0.9713 |
5000 |
0.2565 |
11.8331 |
0.1489 |
1.1655 |
6000 |
0.2498 |
11.6933 |
0.1485 |
1.3598 |
7000 |
0.2452 |
11.1411 |
0.1385 |
1.5540 |
8000 |
0.2346 |
10.4428 |
0.1253 |
1.7483 |
9000 |
0.2254 |
10.1852 |
0.1297 |
1.9425 |
10000 |
0.2144 |
9.7109 |
0.0594 |
2.1368 |
11000 |
0.2174 |
9.5363 |
0.0629 |
2.3310 |
12000 |
0.2136 |
9.8276 |
0.0654 |
2.5253 |
13000 |
0.2102 |
9.4301 |
0.0625 |
2.7195 |
14000 |
0.2075 |
8.9432 |
0.0574 |
2.9138 |
15000 |
0.2009 |
8.7802 |
0.0276 |
3.1080 |
16000 |
0.2050 |
8.4594 |
0.0251 |
3.3023 |
17000 |
0.2046 |
8.5951 |
0.0246 |
3.4965 |
18000 |
0.2035 |
8.1187 |
0.0259 |
3.6908 |
19000 |
0.2002 |
8.0588 |
0.021 |
3.8850 |
20000 |
0.1951 |
7.9147 |
0.0072 |
4.0793 |
21000 |
0.2053 |
7.7548 |
0.0067 |
4.2735 |
22000 |
0.2085 |
7.4972 |
0.0067 |
4.4678 |
23000 |
0.2094 |
7.6970 |
0.0062 |
4.6620 |
24000 |
0.2071 |
7.7433 |
0.0046 |
4.8563 |
25000 |
0.2065 |
7.5056 |
框架版本
- Transformers 4.49.0
- Pytorch 2.2.0a0+81ea7a4
- Datasets 3.3.2
- Tokenizers 0.21.0
📄 許可證
本模型採用MIT許可證。