wav2vec2-base-timit-demo-colab_1开源语音识别模型 - 免费部署，精准识别语音内容

Wav2vec2 Base Timit Demo Colab 1

由 fahadtouseef 开发

该模型是基于facebook/wav2vec2-base在TIMIT数据集上微调的语音识别模型，评估集词错误率(WER)为0.2574。

下载量 18

发布时间 : 5/1/2022

模型简介

一个用于英语语音识别的预训练模型，基于wav2vec2架构微调，适用于自动语音识别(ASR)任务。

低词错误率

在评估集上达到0.2574的词错误率(WER)，表现良好。

基于wav2vec2架构

采用facebook的wav2vec2-base模型作为基础架构，具有强大的语音特征提取能力。

微调优化

在TIMIT数据集上进行微调，针对特定语音识别任务进行了优化。

英语语音识别

语音转文本

连续语音识别

语音转录

会议记录自动转录

将英语会议录音自动转换为文字记录

词错误率约25.74%

语音笔记转换

将英语语音笔记转换为可编辑的文本

语音助手

英语语音指令识别

用于识别和理解英语语音指令

训练损失	轮数	步数	验证损失	词错误率（Wer）
4.0949	3.52	500	1.1140	0.7136
0.7584	7.04	1000	0.5312	0.5154
0.4254	10.56	1500	0.4489	0.4401
0.2708	14.08	2000	0.4108	0.3770
0.1855	17.61	2500	0.3881	0.3257
0.139	21.13	3000	0.3666	0.2958
0.1057	24.65	3500	0.3351	0.2748
0.0855	28.17	4000	0.3233	0.2574