W

Wav2vec2 2 Bart Large Tedlium

由 sanchit-gandhi 开发
基于TEDLIUM语料库训练的序列到序列自动语音识别模型,结合Wav2Vec2语音编码器和Bart文本解码器
下载量 111
发布时间 : 6/29/2022

模型简介

该模型用于英语语音识别任务,采用Wav2Vec2作为语音编码器和Bart作为文本解码器的混合架构,在TED演讲数据集上表现出色

模型特点

混合架构
结合Wav2Vec2语音编码器和Bart文本解码器的优势,实现高效语音识别
高性能
在TEDLIUM测试集上达到6.4%的词错误率(WER),表现优异
预训练初始化
编码器和解码器分别使用Wav2Vec2 LV-60k和Bart large的预训练权重初始化

模型能力

英语语音识别
长音频处理
高质量转录

使用案例

会议记录
TED演讲转录
将TED演讲音频自动转换为文字稿
测试集词错误率6.4%
教育
讲座录音转录
将学术讲座录音转换为文字用于笔记或字幕
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase