D

Data2vec Audio Large

由facebook開發
Data2Vec-Audio-Large是基於16kHz採樣語音音頻預訓練的大型模型,採用自監督學習框架,適用於語音識別等任務。
下載量 97
發布時間 : 4/2/2022

模型概述

該模型是Facebook Data2Vec框架的音頻實現版本,通過自蒸餾方式學習語音數據的潛在表徵,可應用於語音識別等任務。

模型特點

統一的自監督學習框架
採用Data2Vec框架,可同時適用於語音、NLP和計算機視覺領域
上下文潛在表徵預測
不同於預測局部目標,模型預測包含整個輸入信息的上下文潛在表徵
16kHz音頻支持
專門針對16kHz採樣的語音音頻進行優化

模型能力

語音特徵提取
自監督學習
語音識別基礎模型

使用案例

語音處理
語音識別系統
作為基礎模型用於構建語音識別系統
在語音識別基準測試中達到最優或超越主流方案
語音特徵提取
提取語音的高級特徵表示
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase