wavlm-base-libri-clean-100开源自动语音识别模型 - 精准识别提升语音处理效率

Wavlm Base Libri Clean 100

由 anjulRajendraSharma 开发

基于WavLM架构的自动语音识别模型，在LibriSpeech CLEAN数据集（100小时）上微调

下载量 73

发布时间 : 3/2/2022

模型简介

该模型是微软WavLM-base模型的微调版本，专门用于英语语音识别任务，在LibriSpeech CLEAN数据集上表现出色

高精度语音识别

在LibriSpeech CLEAN测试集上达到7.73%的词错误率

基于WavLM架构

采用微软先进的WavLM自监督学习架构，具有强大的语音特征提取能力

轻量级微调

仅使用100小时的干净语音数据进行微调，保持基础模型的泛化能力

英语语音识别

音频转文本

语音内容理解

语音转录

会议记录自动转录

将会议录音自动转换为文字记录

准确率约92.27%（基于7.73% WER）

播客内容索引

为播客音频创建可搜索的文字索引

辅助技术

听力障碍辅助

实时将语音转换为文字显示

训练损失	轮数	步数	验证损失	字错率（Wer）
2.8664	0.17	300	2.8439	1.0
0.5009	0.34	600	0.2709	0.2162
0.2056	0.5	900	0.1934	0.1602
0.1648	0.67	1200	0.1576	0.1306
0.1922	0.84	1500	0.1358	0.1114
0.093	1.01	1800	0.1277	0.1035
0.0652	1.18	2100	0.1251	0.1005
0.0848	1.35	2400	0.1188	0.0964
0.0706	1.51	2700	0.1091	0.0905
0.0846	1.68	3000	0.1018	0.0840
0.0684	1.85	3300	0.0978	0.0809