W

Wav2vec2 Large 10min Lv60 Self

Developed by Splend1dchan
该模型是基于Wav2Vec2架构的大规模语音识别模型,在Libri-Light和Librispeech的10分钟数据上进行了预训练和微调,使用自训练目标进行训练,适用于16kHz采样率的语音音频。
Downloads 177
Release Time : 4/12/2022

Model Overview

Wav2Vec2 2.0是一个自动语音识别(ASR)模型,通过从原始语音音频中学习强大表示,再通过转录语音进行微调,实现了在有限标注数据下的高效语音识别。

Model Features

自训练目标
模型使用自训练目标进行训练,提高了在有限标注数据下的性能表现。
低资源语音识别
仅使用10分钟标注数据和53k小时无标注数据进行预训练,仍能实现较好的语音识别效果。
潜在空间掩码
在潜在空间中对语音输入进行掩码,并通过对比任务解决潜在表示的量化问题。

Model Capabilities

语音识别
音频处理
自动语音转文本

Use Cases

语音转写
会议记录
将会议录音自动转写为文字记录
语音笔记
将语音备忘录转换为可搜索的文本
辅助技术
听力辅助
为听力障碍人士提供实时语音转文字服务
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase