W

Wav2vec2 Conformer Rope Large 960h Ft

Developed by facebook
该模型整合了旋转位置嵌入技术,基于16kHz采样的语音音频,在960小时的LibriSpeech数据上进行了预训练和精细调优,适用于英语语音识别任务。
Downloads 22.02k
Release Time : 4/18/2022

Model Overview

Wav2Vec2 Conformer模型结合了旋转位置嵌入技术,专注于高精度的英语语音识别,支持16kHz采样率的音频输入。

Model Features

旋转位置嵌入技术
采用旋转位置嵌入(RoPE)技术,提升了模型对长序列语音的处理能力。
大规模训练数据
基于960小时的LibriSpeech语音数据进行预训练和精细调优。
高精度识别
在LibriSpeech测试集上达到1.96(Clean)和3.98(Other)的词错率(WER)。

Model Capabilities

英语语音识别
16kHz音频处理
长序列语音转录

Use Cases

语音转录
会议记录转录
将会议录音自动转录为文字记录
高准确率的转录结果
语音笔记转换
将语音笔记转换为可编辑的文本
语音助手
语音指令识别
识别和理解用户的语音指令
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase