D

Data2vec Audio Base

Developed by facebook
Facebook开发的通用自监督学习框架,支持语音、文本和视觉多模态任务的基础音频模型
Downloads 5,694
Release Time : 3/2/2022

Model Overview

基于16kHz采样语音音频预训练的通用自监督学习模型,采用统一框架处理多模态任务,通过预测潜在表征而非特定目标实现跨模态学习

Model Features

多模态统一框架
首次实现语音/NLP/CV三大模态的统一自监督学习架构
全局表征预测
预测包含全局上下文信息的潜在表征,而非传统局部目标(如单词/视觉标记)
自蒸馏架构
通过遮蔽输入视图预测完整输入的潜在表征,实现知识蒸馏

Model Capabilities

语音特征提取
跨模态表示学习
语音识别基础模型(需微调)

Use Cases

语音处理
语音识别系统
作为基础模型进行微调后用于ASR任务
论文报告在LibriSpeech基准测试达到SOTA性能
语音内容分析
提取语音的深层语义表征用于内容理解
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase