W

Wav2vec2 Base 100h

由 facebook 开发
Wav2Vec2基础版是在16kHz采样的Librispeech语音音频上进行了100小时预训练和微调的自动语音识别模型。
下载量 4,380
发布时间 : 3/2/2022

模型简介

该模型通过从语音音频中学习强大表示并进行微调,实现了高效的语音识别功能,特别适用于有限标注数据的场景。

模型特点

高效语音表示学习
通过潜在空间掩码处理和量化对比任务,学习强大的语音表示。
低标注数据需求
在有限标注数据下仍能实现高性能,1小时标注数据即可超越之前100小时子集的最先进技术。
高准确率
在Librispeech测试集上达到1.8/3.3的词错误率(WER)。

模型能力

语音识别
音频转文本
英语语音处理

使用案例

语音转录
会议记录自动生成
将会议录音自动转换为文字记录
在干净测试集上词错误率6.1%
语音助手
用于语音助手的语音识别模块
在其他测试集上词错误率13.5%
教育
语言学习应用
帮助语言学习者练习发音和听力
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase