D

Data2vec Audio Large 960h

由 facebook 开发
Data2Vec是一个通用自监督学习框架,适用于语音、视觉和语言任务。该音频大模型基于LibriSpeech的960小时语音数据预训练和微调,专为自动语音识别任务优化。
下载量 2,531
发布时间 : 4/2/2022

模型简介

基于Data2Vec框架的语音识别模型,使用自监督学习方法在LibriSpeech数据集上训练,能够将语音转换为文本。

模型特点

通用自监督学习框架
采用统一的data2vec框架处理不同模态任务,通过预测完整输入的潜在表征而非局部目标实现
高性能语音识别
在LibriSpeech测试集上取得1.89(clean)和4.07(other)的WER指标
大规模训练数据
基于960小时的LibriSpeech语音数据训练

模型能力

英语语音识别
音频转文本
16kHz采样率音频处理

使用案例

语音转录
会议记录转录
将会议录音自动转换为文字记录
播客内容索引
为播客音频创建可搜索的文字索引
辅助技术
听力辅助
为听障人士提供实时语音转文字服务
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase