E

English ASR

由 maher13 开发
该模型是基于facebook/wav2vec2-base进行微调的英语自动语音识别(ASR)模型,在评估集上取得了0.3397的词错误率。
下载量 13
发布时间 : 3/2/2022

模型简介

这是一个用于英语语音识别的模型,能够将英语语音转换为文本。

模型特点

低词错误率
在评估集上取得了0.3397的词错误率,表现良好。
基于wav2vec2架构
采用facebook的wav2vec2-base模型进行微调,继承了其优秀的语音特征提取能力。
高效训练
使用混合精度训练(原生AMP)和线性学习率调度器,训练效率高。

模型能力

英语语音识别
语音转文本

使用案例

语音转录
会议记录
将英语会议录音自动转换为文字记录
准确率约66.03%(基于1-0.3397的词错误率)
语音笔记
将英语语音笔记转换为可搜索的文本
辅助工具
字幕生成
为英语视频内容自动生成字幕
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase