S

Simpleoier Librispeech Asr Train Asr Conformer7 Wavlm Large Raw En Bpe5000 Sp

Developed by espnet
基于ESPnet框架训练的自动语音识别(ASR)模型,使用Conformer架构和WavLM大型预训练模型,在LibriSpeech数据集上训练。
Downloads 66
Release Time : 3/2/2022

Model Overview

该模型是一个高性能的英语自动语音识别系统,专为处理原始音频输入并转换为文本而设计。

Model Features

高性能架构
结合Conformer7和WavLM大型预训练模型,提供卓越的语音识别能力
LibriSpeech训练
在广泛使用的LibriSpeech数据集上训练,确保模型在多种语音条件下的鲁棒性
低错误率
在测试集上表现出色,词错误率(WER)在干净语音上低至1.8%,在嘈杂语音上为3.7%

Model Capabilities

英语语音识别
原始音频处理
大规模语音转文本

Use Cases

语音转录
会议记录
自动转录会议录音
准确率高达98.4%(测试集clean数据)
音频字幕生成
为播客或视频内容生成字幕
在嘈杂语音环境下仍保持96.7%准确率
语音助手
语音命令识别
识别和执行语音命令
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase