🚀 DASS:蒸餾音頻狀態空間模型
DASS(Distilled Audio State-space Models)是一個在AudioSet - 2M上微調的音頻分類模型。它是首個超越基於Transformer的音頻分類器(如AST、HTS - AT和Audio - MAE)的狀態空間模型。DASS在音頻分類任務上達到了當前最優性能,同時顯著減小了模型大小。此外,它在音頻時長魯棒性方面也遠優於AST模型。該模型在論文 DASS: Distilled Audio State Space Models Are Stronger and More Duration - Scalable Learners 中被提出,並首次在 此倉庫 發佈。
🚀 快速開始
使用以下代碼開始使用該模型:
import torch
import librosa
from transformers import AutoConfig, AutoModelForAudioClassification, AutoFeatureExtractor
config = AutoConfig.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
audio_model = AutoModelForAudioClassification.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
feature_extractor = AutoFeatureExtractor.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
waveform, sr = librosa.load("audio/eval/_/_/--4gqARaEJE_0.000.flac", sr=16000)
inputs = feature_extractor(waveform,sr, return_tensors='pt')
with torch.no_grad():
logits = torch.sigmoid(audio_model(**inputs).logits)
predicted_class_ids = torch.where(logits[0] > 0.5)[0]
predicted_label = [audio_model.config.id2label[i.item()] for i in predicted_class_ids]
predicted_label
['Animal', 'Domestic animals, pets', 'Dog']
✨ 主要特性
性能優越
DASS是首個超越基於Transformer的音頻分類器(如AST、HTS - AT和Audio - MAE)的狀態空間模型。在AudioSet音頻分類任務上達到了當前最優性能,同時顯著減小了模型大小。例如,與包含約8700萬個參數的AST相比,DASS - small僅包含3000萬個參數(約為AST的三分之一),且性能更優(AudioSet - 2M平均精度均值:AST為45.9,DASS - small為47.2)。
時長魯棒性強
相比AST模型,DASS在時長魯棒性方面表現顯著更優。例如,在使用10秒長的音頻進行訓練時,當輸入音頻時長為50秒,AST模型的性能下降到平均精度均值小於5(不足10秒輸入時性能的12%),而DASS在相同設置下的性能為45.5(達到10秒輸入時性能的96%)。在單張A6000 GPU上,DASS可以處理長達2.5小時的音頻輸入,並且仍能保持相對於10秒輸入時62%的性能。
📚 詳細文檔
模型細節
DASS模型基於 VMamba: Visual State Space Model 並應用於音頻領域。它使用二元交叉熵損失函數(相對於真實標籤)和KL散度損失函數(相對於教師模型AST)進行訓練。
評估結果
以下是在AudioSet - 2M上微調並評估的DASS模型的結果:
屬性 |
詳情 |
模型類型 |
蒸餾音頻狀態空間模型 |
訓練數據 |
AudioSet - 2M |
模型 |
參數數量 |
預訓練方式 |
平均精度均值 |
基於Transformer的模型 |
|
|
|
AST |
87M |
IN SL |
45.9 |
HTS - AT |
31M |
IN SL |
47.1 |
PaSST |
|
IN SL |
47.1 |
Audio - MAE |
86M |
SSL |
47.3 |
同期狀態空間模型 |
|
|
|
AuM |
26M |
IN SL |
39.7 |
Audio Mamba |
40M |
IN SL |
44.0 |
DASS - Small |
30M |
IN SL |
47.2 |
DASS - Medium |
49M |
IN SL |
47.6 |
📄 許可證
本項目採用BSD 3 - 條款許可證。
📚 引用
如果您使用了該模型,請引用以下論文:
@article{bhati2024dass,
title={DASS: Distilled Audio State Space Models Are Stronger and More Duration-Scalable Learners},
author={Bhati, Saurabhchand and Gong, Yuan and Karlinsky, Leonid and Kuehne, Hilde and Feris, Rogerio and Glass, James},
journal={arXiv preprint arXiv:2407.04082},
year={2024}
}
🙏 致謝
本項目基於AST(論文,代碼)和VMamba(論文,代碼),感謝他們的優秀工作。請務必查看他們的項目。