whisper-small-tel開源語音識別模型 - 精準識別泰盧固語語音內容

Whisper Small Tel

由sagarchapara開發

基於OpenAI Whisper-large-v2在泰盧固語音頻數據集上微調的語音識別模型

下載量 17

發布時間 : 2/27/2025

模型概述

本模型是針對泰盧固語優化的自動語音識別(ASR)模型，基於Whisper-large-v2架構微調，專門用於泰盧固語的語音轉文字任務。

泰盧固語優化

專門針對泰盧固語進行微調，提高該語言的識別準確率

大規模預訓練基礎

基於Whisper-large-v2的強大語音識別能力進行微調

端到端語音識別

可直接將語音輸入轉換為文本輸出，無需中間處理步驟

泰盧固語語音識別

音頻轉文本

長格式語音轉錄

語音轉錄

泰盧固語會議記錄

將泰盧固語會議錄音自動轉換為文字記錄

詞錯誤率約92.4%（需進一步優化）

媒體字幕生成

為泰盧固語視頻內容自動生成字幕

語音助手

泰盧固語語音指令識別

用於泰盧固語語音助手應用的指令識別

本模型是 openai/whisper-large-v2 在泰盧固語音頻數據集上的微調版本。它在評估集上取得了以下成果：

訓練過程中使用了以下超參數：

學習率（learning_rate）：0.0002
訓練批次大小（train_batch_size）：4
評估批次大小（eval_batch_size）：16
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：4
總訓練批次大小（total_train_batch_size）：16
優化器（optimizer）：使用 OptimizerNames.ADAMW_TORCH，其中 betas=(0.9,0.999)，epsilon=1e-08，無額外優化器參數
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練步數（training_steps）：10000
混合精度訓練（mixed_precision_training）：原生自動混合精度（Native AMP）

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
0.384	0.1797	250	0.9966	96.1662
0.434	0.3595	500	1.4886	98.5007
0.4014	0.5392	750	1.4760	97.7940
0.3318	0.7189	1000	1.5314	97.7511
0.3014	0.8986	1250	1.5504	97.8368
0.2213	1.0784	1500	1.6095	97.3656
0.2212	1.2581	1750	1.6825	96.1662
0.2323	1.4378	2000	1.5175	97.6012
0.2049	1.6175	2250	2.0035	97.7940
0.1834	1.7973	2500	1.6968	96.4232
0.2012	1.9770	2750	1.7613	97.3013
0.1426	2.1567	3000	1.5106	95.9734
0.1344	2.3364	3250	1.7199	95.5665
0.1512	2.5162	3500	1.9328	94.8169
0.1346	2.6959	3750	1.7806	96.0805
0.1211	2.8756	4000	2.0429	95.6736
0.0824	3.0554	4250	2.0699	95.3309
0.0936	3.2351	4500	2.0379	96.1876
0.0946	3.4148	4750	2.1346	95.9092
0.0904	3.5945	5000	2.1195	95.0311
0.0937	3.7743	5250	1.7738	95.1810
0.0836	3.9540	5500	2.0081	95.1167
0.0525	4.1337	5750	2.3687	94.9240
0.0562	4.3134	6000	2.2252	95.1381
0.0506	4.4932	6250	2.5513	95.5022
0.0592	4.6729	6500	2.5357	95.6736
0.0521	4.8526	6750	2.4758	95.8235
0.0276	5.0324	7000	2.8255	94.9454
0.0278	5.2121	7250	2.6255	94.7740
0.0311	5.3918	7500	3.0046	94.4956
0.0269	5.5715	7750	2.8301	94.7312
0.0242	5.7513	8000	2.8859	94.2386
0.0255	5.9310	8250	2.5873	93.4676
0.0157	6.1107	8500	3.4027	93.6175
0.0092	6.2904	8750	3.5842	93.6389
0.0118	6.4702	9000	3.2694	93.9602
0.0086	6.6499	9250	3.3464	93.5318
0.01	6.8296	9500	3.4414	93.4461
0.0065	7.0093	9750	3.3491	92.6108
0.002	7.1891	10000	3.5889	92.3967