D

DASS Small AudioSet 47.2

由saurabhati開發
首個超越基於Transformer的音頻分類器的狀態空間模型,在AudioSet音頻分類任務中實現最先進性能,同時顯著減小模型規模。
下載量 47
發布時間 : 3/29/2025

模型概述

基於AudioSet-2M微調的音頻分類模型,採用狀態空間架構,在音頻分類任務中性能優於傳統Transformer模型,且具有更強的時長魯棒性。

模型特點

高效性能
僅含3000萬參數的DASS-small性能超越8700萬參數的AST模型(mAP 47.2 vs 45.9)
時長魯棒性
在長音頻輸入下性能保持穩定,50秒輸入仍能保持96%的10秒輸入性能
超長音頻處理
單塊A6000 GPU可處理長達2.5小時的音頻輸入,性能保持10秒輸入的62%
蒸餾學習
結合KL散度損失對標教師AST模型進行訓練,提升學習效率

模型能力

音頻分類
多標籤音頻識別
長音頻處理

使用案例

音頻內容分析
環境聲音分類
識別自然環境或城市環境中的各類聲音
可準確識別動物叫聲、交通工具等聲音類別
音頻事件檢測
檢測音頻流中的特定事件或聲音
可檢測如玻璃破碎、警報聲等關鍵事件
媒體內容管理
視頻內容標記
通過音頻分析輔助視頻內容分類
提高視頻內容檢索和分類效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase