wav2vec2-base微调语音识别模型 - 开源可用，基于部分数据训练

Wav2vec2 Base Toy Train Data Fast 10pct

Developed by scasutt

该模型是基于facebook/wav2vec2-base在未知数据集上微调的语音识别模型，训练时使用了10%的数据子集。

Downloads 22

Release Time : 3/26/2022

Model Overview

一个用于自动语音识别(ASR)的微调模型，基于wav2vec2架构，适用于英语语音转文字任务。

高效训练

使用10%的数据子集进行训练，适合快速原型开发

基于wav2vec2架构

采用Facebook研究团队开发的先进语音表示学习架构

线性学习率调度

训练过程中采用线性学习率调度和预热策略

英语语音识别

音频特征提取

语音转文字

语音转录

会议记录

将英语会议录音自动转换为文字记录

词错误率(WER)约0.7175

语音笔记

将个人语音备忘录转换为可搜索的文本

训练损失	轮数	步数	验证损失	字错率（Wer）
3.1309	1.05	250	3.4541	0.9982
3.0499	2.1	500	3.0231	0.9982
1.4839	3.15	750	1.4387	0.9257
1.1697	4.2	1000	1.3729	0.8792
0.9353	5.25	1250	1.2608	0.8445
0.7298	6.3	1500	1.1867	0.8052
0.6418	7.35	1750	1.2414	0.7997
0.5698	8.4	2000	1.2240	0.7766
0.5084	9.45	2250	1.1910	0.7687
0.4912	10.5	2500	1.2241	0.7617
0.4144	11.55	2750	1.2412	0.7477
0.4153	12.6	3000	1.2736	0.7511
0.405	13.65	3250	1.2827	0.7328
0.3852	14.7	3500	1.1981	0.7331
0.3829	15.75	3750	1.3035	0.7347
0.3538	16.81	4000	1.3003	0.7240
0.3385	17.86	4250	1.3354	0.7304
0.3108	18.91	4500	1.2983	0.7229
0.3037	19.96	4750	1.3087	0.7175