wav2vec2-base_toy_train_data_slow_10pct开源语音识别模型

Wav2vec2 Base Toy Train Data Slow 10pct

由 scasutt 开发

基于facebook/wav2vec2-base模型在未知数据集上微调的语音识别模型，词错误率(WER)为0.7175

下载量 22

发布时间 : 3/27/2022

模型简介

该模型是wav2vec2-base的微调版本，主要用于语音识别任务。模型在评估集上表现出一定的识别能力，但仍有改进空间。

基于wav2vec2-base微调

在基础wav2vec2模型上进行微调，适应特定语音识别任务

线性学习率调度

采用线性学习率调度策略，配合1000步的预热期

梯度累积训练

使用梯度累积(步数=2)来增加有效批次大小

语音转文本

自动语音识别

语音转录

会议记录转录

将会议录音转换为文字记录

词错误率0.7175

语音指令识别

识别简单的语音指令

训练损失	轮数	步数	验证损失	字错率（Wer）
3.0663	2.1	500	3.0725	0.9982
1.1679	4.2	1000	1.3620	0.8889
0.6789	6.3	1500	1.2182	0.8160
0.5764	8.4	2000	1.2469	0.7667
0.4603	10.5	2500	1.2851	0.7533
0.4085	12.6	3000	1.2351	0.7401
0.3583	14.7	3500	1.2455	0.7367
0.3158	16.81	4000	1.3663	0.7261
0.2817	18.91	4500	1.3248	0.7175