Indian-Accent-English-Whisper-Finetuned開源模型 - 精準識別印度英語口音語音！

Home

Indian Accent English Whisper Finetuned

Developed by Tejveer12

基於印度英語口音數據集對openai/whisper-large-v3-turbo進行微調，更適合印度英語口音的語音識別。

語音識別

Transformers

EnglishOpen Source License:MIT #印度英語語音識別 #口音優化 #低字錯率

Downloads 1,733

Release Time : 3/8/2025

Model Overview

本模型是針對印度英語口音優化的自動語音識別模型，在評估集上表現出較低的字錯率。

Model Features

印度英語口音優化

專門針對印度英語口音進行微調，提高識別準確率

低字錯率

在評估集上取得7.5056的字錯率(WER)，表現優異

基於Whisper架構

基於openai/whisper-large-v3-turbo模型微調，繼承其強大性能

Model Capabilities

印度英語語音識別

自動語音轉文字

英語口音適應

Use Cases

語音轉錄

印度英語會議記錄

將印度英語口音的會議錄音轉換為文字記錄

高準確率的文字轉錄

客服語音分析

分析印度英語客戶的語音反饋

提高客服效率和分析準確性

🚀 Whisper印度英語口音模型

本模型是基於印度英語口音數據集對openai/whisper-large-v3-turbo進行微調得到的版本。它在評估集上取得了以下成果：

損失值：0.2065
字錯率（Wer）：7.5056

🚀 快速開始

本模型是預訓練模型，若要使用它進行自動語音識別任務，可藉助Hugging Face的transformers庫。以下是簡單的使用示例：

from transformers import WhisperForConditionalGeneration, WhisperProcessor
import torch
from datasets import load_dataset

# 加載模型和處理器
model = WhisperForConditionalGeneration.from_pretrained("your_model_path")
processor = WhisperProcessor.from_pretrained("your_model_path")

# 加載示例音頻數據
ds = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
sample = ds[0]["audio"]

# 處理音頻輸入
input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features 

# 生成轉錄文本
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)

print(transcription)

✨ 主要特性

微調優化：基於印度英語口音數據集對openai/whisper-large-v3-turbo進行微調，更適合印度英語口音的語音識別。
評估表現良好：在評估集上有較低的損失值和字錯率，具備較好的識別性能。

📦 安裝指南

若要使用本模型，需安裝以下依賴庫：

pip install transformers==4.49.0 datasets==3.3.2 tokenizers==0.21.0 torch==2.2.0a0+81ea7a4

📚 詳細文檔

模型描述

本模型是在openai/whisper-large-v3-turbo基礎上，針對印度英語口音數據集進行微調得到的。不過目前關於模型的更多詳細信息有待補充。

預期用途與限制

目前關於模型的預期用途和限制的更多信息有待補充。

訓練和評估數據

目前關於訓練和評估數據的更多信息有待補充。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：1e-05
訓練批次大小（train_batch_size）：16
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
優化器（optimizer）：使用adamw_torch，其中betas=(0.9,0.999)，epsilon=1e-08，無額外優化器參數
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練輪數（num_epochs）：5
混合精度訓練（mixed_precision_training）：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.342	0.1943	1000	0.3226	14.1310
0.2741	0.3885	2000	0.3130	13.9553
0.2576	0.5828	3000	0.2967	12.9931
0.2825	0.7770	4000	0.2692	12.3390
0.2295	0.9713	5000	0.2565	11.8331
0.1489	1.1655	6000	0.2498	11.6933
0.1485	1.3598	7000	0.2452	11.1411
0.1385	1.5540	8000	0.2346	10.4428
0.1253	1.7483	9000	0.2254	10.1852
0.1297	1.9425	10000	0.2144	9.7109
0.0594	2.1368	11000	0.2174	9.5363
0.0629	2.3310	12000	0.2136	9.8276
0.0654	2.5253	13000	0.2102	9.4301
0.0625	2.7195	14000	0.2075	8.9432
0.0574	2.9138	15000	0.2009	8.7802
0.0276	3.1080	16000	0.2050	8.4594
0.0251	3.3023	17000	0.2046	8.5951
0.0246	3.4965	18000	0.2035	8.1187
0.0259	3.6908	19000	0.2002	8.0588
0.021	3.8850	20000	0.1951	7.9147
0.0072	4.0793	21000	0.2053	7.7548
0.0067	4.2735	22000	0.2085	7.4972
0.0067	4.4678	23000	0.2094	7.6970
0.0062	4.6620	24000	0.2071	7.7433
0.0046	4.8563	25000	0.2065	7.5056