V

Vit Base Patch16 1024 128.audiomae As2m Ft As20k

由gaunernst開發
基於視覺變換器(ViT)的音頻處理模型,通過自監督掩碼自編碼器(MAE)方法在AudioSet-2M上預訓練並在AudioSet-20k上微調
下載量 335
發布時間 : 11/16/2023

模型概述

該模型主要用於音頻分類和特徵提取任務,能夠處理16kHz採樣率的音頻輸入並輸出分類結果或特徵向量

模型特點

自監督預訓練
使用掩碼自編碼器(MAE)方法在AudioSet-2M上進行自監督預訓練,有效學習音頻特徵
微調優化
在AudioSet-20k數據集上進行了微調,提高了特定任務的性能
高效處理
固定處理1024幀音頻輸入,適合批量處理標準化長度的音頻片段

模型能力

音頻分類
音頻特徵提取
梅爾頻譜分析

使用案例

音頻分析
音頻事件檢測
識別音頻中的特定事件或聲音類別
音頻內容理解
提取音頻內容的特徵表示用於下游任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase