D

Data2vec Audio Base

由facebook開發
Facebook開發的通用自監督學習框架,支持語音、文本和視覺多模態任務的基礎音頻模型
下載量 5,694
發布時間 : 3/2/2022

模型概述

基於16kHz採樣語音音頻預訓練的通用自監督學習模型,採用統一框架處理多模態任務,通過預測潛在表徵而非特定目標實現跨模態學習

模型特點

多模態統一框架
首次實現語音/NLP/CV三大模態的統一自監督學習架構
全局表徵預測
預測包含全局上下文信息的潛在表徵,而非傳統局部目標(如單詞/視覺標記)
自蒸餾架構
通過遮蔽輸入視圖預測完整輸入的潛在表徵,實現知識蒸餾

模型能力

語音特徵提取
跨模態表示學習
語音識別基礎模型(需微調)

使用案例

語音處理
語音識別系統
作為基礎模型進行微調後用於ASR任務
論文報告在LibriSpeech基準測試達到SOTA性能
語音內容分析
提取語音的深層語義表徵用於內容理解
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase