W

Wav2vec2 Large Xlsr 53 English

由 jonatasgrosman 开发
基于facebook/wav2vec2-large-xlsr-53模型微调的英语语音识别模型,在Common Voice 6.1数据集上训练
下载量 251.78k
发布时间 : 3/2/2022

模型简介

这是一个针对英语语音识别任务微调的XLSR-53大模型,能够将英语语音转换为文本

模型特点

高性能英语语音识别
在Common Voice测试集上达到19.06%的词错误率和7.69%的字错误率
支持语言模型增强
结合语言模型后,词错误率可降至14.81%,字错误率降至6.84%
16kHz采样率支持
专为16kHz采样率的语音输入优化
基于XLSR-53预训练模型
利用大规模跨语言语音表示学习(XLSR)的预训练优势

模型能力

英语语音识别
语音转文本
支持长音频处理(通过分块)

使用案例

语音转录
会议记录自动转录
将英语会议录音自动转换为文字记录
准确率约80.94%(基于WER)
语音笔记转换
将个人语音备忘录转换为可搜索的文本
辅助技术
实时字幕生成
为英语视频或直播生成实时字幕
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase