whisper-small-tel开源语音识别模型 - 精准识别泰卢固语语音内容

Whisper Small Tel

由 sagarchapara 开发

基于OpenAI Whisper-large-v2在泰卢固语音频数据集上微调的语音识别模型

下载量 17

发布时间 : 2/27/2025

模型简介

本模型是针对泰卢固语优化的自动语音识别(ASR)模型，基于Whisper-large-v2架构微调，专门用于泰卢固语的语音转文字任务。

泰卢固语优化

专门针对泰卢固语进行微调，提高该语言的识别准确率

大规模预训练基础

基于Whisper-large-v2的强大语音识别能力进行微调

端到端语音识别

可直接将语音输入转换为文本输出，无需中间处理步骤

泰卢固语语音识别

音频转文本

长格式语音转录

语音转录

泰卢固语会议记录

将泰卢固语会议录音自动转换为文字记录

词错误率约92.4%（需进一步优化）

媒体字幕生成

为泰卢固语视频内容自动生成字幕

语音助手

泰卢固语语音指令识别

用于泰卢固语语音助手应用的指令识别

本模型是 openai/whisper-large-v2 在泰卢固语音频数据集上的微调版本。它在评估集上取得了以下成果：

训练过程中使用了以下超参数：

学习率（learning_rate）：0.0002
训练批次大小（train_batch_size）：4
评估批次大小（eval_batch_size）：16
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：4
总训练批次大小（total_train_batch_size）：16
优化器（optimizer）：使用 OptimizerNames.ADAMW_TORCH，其中 betas=(0.9,0.999)，epsilon=1e-08，无额外优化器参数
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练步数（training_steps）：10000
混合精度训练（mixed_precision_training）：原生自动混合精度（Native AMP）

训练损失	轮数	步数	验证损失	词错误率（Wer）
0.384	0.1797	250	0.9966	96.1662
0.434	0.3595	500	1.4886	98.5007
0.4014	0.5392	750	1.4760	97.7940
0.3318	0.7189	1000	1.5314	97.7511
0.3014	0.8986	1250	1.5504	97.8368
0.2213	1.0784	1500	1.6095	97.3656
0.2212	1.2581	1750	1.6825	96.1662
0.2323	1.4378	2000	1.5175	97.6012
0.2049	1.6175	2250	2.0035	97.7940
0.1834	1.7973	2500	1.6968	96.4232
0.2012	1.9770	2750	1.7613	97.3013
0.1426	2.1567	3000	1.5106	95.9734
0.1344	2.3364	3250	1.7199	95.5665
0.1512	2.5162	3500	1.9328	94.8169
0.1346	2.6959	3750	1.7806	96.0805
0.1211	2.8756	4000	2.0429	95.6736
0.0824	3.0554	4250	2.0699	95.3309
0.0936	3.2351	4500	2.0379	96.1876
0.0946	3.4148	4750	2.1346	95.9092
0.0904	3.5945	5000	2.1195	95.0311
0.0937	3.7743	5250	1.7738	95.1810
0.0836	3.9540	5500	2.0081	95.1167
0.0525	4.1337	5750	2.3687	94.9240
0.0562	4.3134	6000	2.2252	95.1381
0.0506	4.4932	6250	2.5513	95.5022
0.0592	4.6729	6500	2.5357	95.6736
0.0521	4.8526	6750	2.4758	95.8235
0.0276	5.0324	7000	2.8255	94.9454
0.0278	5.2121	7250	2.6255	94.7740
0.0311	5.3918	7500	3.0046	94.4956
0.0269	5.5715	7750	2.8301	94.7312
0.0242	5.7513	8000	2.8859	94.2386
0.0255	5.9310	8250	2.5873	93.4676
0.0157	6.1107	8500	3.4027	93.6175
0.0092	6.2904	8750	3.5842	93.6389
0.0118	6.4702	9000	3.2694	93.9602
0.0086	6.6499	9250	3.3464	93.5318
0.01	6.8296	9500	3.4414	93.4461
0.0065	7.0093	9750	3.3491	92.6108
0.002	7.1891	10000	3.5889	92.3967