sew-d-mid-400k-librispeech-clean-100h-ft开源模型 - 精准自动语音识别，低错误率

Sew D Mid 400k Librispeech Clean 100h Ft

由 patrickvonplaten 开发

该模型是基于asapp/sew-d-mid-400k在LIBRISPEECH_ASR - CLEAN数据集上微调得到的自动语音识别模型，在评估集上取得了1.0536的词错误率(WER)。

下载量 15

发布时间 : 3/2/2022

模型简介

一个针对英语语音识别任务优化的模型，特别适用于LibriSpeech数据集中的干净语音样本。

高效语音识别

基于SEW-D架构优化，提供高效的语音转文本能力

低词错误率

在LibriSpeech clean 100h数据集上达到1.0536的WER

多GPU训练优化

支持分布式训练，优化了多GPU环境下的性能

英语语音识别

高精度转录

处理干净语音样本

语音转录

有声书转录

将高质量的有声读物内容转换为文本

高准确率的转录结果

会议记录

在安静环境下进行会议语音记录

训练损失	轮数	步数	验证损失	字错率（Wer）
7.319	0.11	100	11.0572	1.0
3.6726	0.22	200	4.2003	1.0
2.981	0.34	300	3.5742	0.9919
2.9411	0.45	400	3.2599	1.0
2.903	0.56	500	2.9350	1.0
2.8597	0.67	600	2.9514	1.0
2.7771	0.78	700	2.8521	1.0
2.7926	0.9	800	2.7821	1.0120
2.6623	1.01	900	2.7027	0.9924
2.5893	1.12	1000	2.6667	1.0240
2.5733	1.23	1100	2.6341	1.0368
2.5455	1.35	1200	2.5928	1.0411
2.4919	1.46	1300	2.5695	1.0817
2.5182	1.57	1400	2.5559	1.1072
2.4766	1.68	1500	2.5229	1.1257
2.4267	1.79	1600	2.4991	1.1151
2.3919	1.91	1700	2.4768	1.1139
2.3883	2.02	1800	2.4452	1.0636
2.3737	2.13	1900	2.4304	1.0594
2.3569	2.24	2000	2.4095	1.0539
2.3641	2.35	2100	2.3997	1.0511
2.3281	2.47	2200	2.3856	1.0414
2.2912	2.58	2300	2.3750	1.0696
2.3028	2.69	2400	2.3684	1.0436
2.2906	2.8	2500	2.3613	1.0538
2.2822	2.91	2600	2.3558	1.0506