🚀 DASS:蒸馏音频状态空间模型
DASS(Distilled Audio State-space Models)是一个在AudioSet - 2M上微调的音频分类模型。它是首个超越基于Transformer的音频分类器(如AST、HTS - AT和Audio - MAE)的状态空间模型。DASS在音频分类任务上达到了当前最优性能,同时显著减小了模型大小。此外,它在音频时长鲁棒性方面也远优于AST模型。该模型在论文 DASS: Distilled Audio State Space Models Are Stronger and More Duration - Scalable Learners 中被提出,并首次在 此仓库 发布。
🚀 快速开始
使用以下代码开始使用该模型:
import torch
import librosa
from transformers import AutoConfig, AutoModelForAudioClassification, AutoFeatureExtractor
config = AutoConfig.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
audio_model = AutoModelForAudioClassification.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
feature_extractor = AutoFeatureExtractor.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
waveform, sr = librosa.load("audio/eval/_/_/--4gqARaEJE_0.000.flac", sr=16000)
inputs = feature_extractor(waveform,sr, return_tensors='pt')
with torch.no_grad():
logits = torch.sigmoid(audio_model(**inputs).logits)
predicted_class_ids = torch.where(logits[0] > 0.5)[0]
predicted_label = [audio_model.config.id2label[i.item()] for i in predicted_class_ids]
predicted_label
['Animal', 'Domestic animals, pets', 'Dog']
✨ 主要特性
性能优越
DASS是首个超越基于Transformer的音频分类器(如AST、HTS - AT和Audio - MAE)的状态空间模型。在AudioSet音频分类任务上达到了当前最优性能,同时显著减小了模型大小。例如,与包含约8700万个参数的AST相比,DASS - small仅包含3000万个参数(约为AST的三分之一),且性能更优(AudioSet - 2M平均精度均值:AST为45.9,DASS - small为47.2)。
时长鲁棒性强
相比AST模型,DASS在时长鲁棒性方面表现显著更优。例如,在使用10秒长的音频进行训练时,当输入音频时长为50秒,AST模型的性能下降到平均精度均值小于5(不足10秒输入时性能的12%),而DASS在相同设置下的性能为45.5(达到10秒输入时性能的96%)。在单张A6000 GPU上,DASS可以处理长达2.5小时的音频输入,并且仍能保持相对于10秒输入时62%的性能。
📚 详细文档
模型细节
DASS模型基于 VMamba: Visual State Space Model 并应用于音频领域。它使用二元交叉熵损失函数(相对于真实标签)和KL散度损失函数(相对于教师模型AST)进行训练。
评估结果
以下是在AudioSet - 2M上微调并评估的DASS模型的结果:
属性 |
详情 |
模型类型 |
蒸馏音频状态空间模型 |
训练数据 |
AudioSet - 2M |
模型 |
参数数量 |
预训练方式 |
平均精度均值 |
基于Transformer的模型 |
|
|
|
AST |
87M |
IN SL |
45.9 |
HTS - AT |
31M |
IN SL |
47.1 |
PaSST |
|
IN SL |
47.1 |
Audio - MAE |
86M |
SSL |
47.3 |
同期状态空间模型 |
|
|
|
AuM |
26M |
IN SL |
39.7 |
Audio Mamba |
40M |
IN SL |
44.0 |
DASS - Small |
30M |
IN SL |
47.2 |
DASS - Medium |
49M |
IN SL |
47.6 |
📄 许可证
本项目采用BSD 3 - 条款许可证。
📚 引用
如果您使用了该模型,请引用以下论文:
@article{bhati2024dass,
title={DASS: Distilled Audio State Space Models Are Stronger and More Duration-Scalable Learners},
author={Bhati, Saurabhchand and Gong, Yuan and Karlinsky, Leonid and Kuehne, Hilde and Feris, Rogerio and Glass, James},
journal={arXiv preprint arXiv:2407.04082},
year={2024}
}
🙏 致谢
本项目基于AST(论文,代码)和VMamba(论文,代码),感谢他们的优秀工作。请务必查看他们的项目。