W

Wav2vec2 Base Audioset

由ALM開發
基於HuBERT架構的音頻表徵學習模型,在完整AudioSet數據集上預訓練完成
下載量 2,191
發布時間 : 9/5/2023

模型概述

該模型採用HuBERT架構,通過自監督學習方式從AudioSet數據集中提取通用音頻特徵,適用於多種音頻處理任務。

模型特點

通用音頻表徵
能夠從多樣化音頻內容中學習通用特徵表示
自監督預訓練
採用自監督學習方式在AudioSet數據集上進行預訓練
Transformer架構
基於HuBERT的Transformer架構,具有強大的特徵提取能力

模型能力

音頻特徵提取
音樂分類
聲學事件檢測
語音識別輔助

使用案例

音頻分析
音樂分類
對音樂片段進行流派或情緒分類
環境聲音檢測
識別環境中的特定聲音事件(如警報聲、動物叫聲等)
語音處理
語音識別輔助
作為語音識別系統的前端特徵提取器
可能不如專用語音模型表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase