🚀 DASS: Distilled Audio State-space Models
DASS(Distilled Audio State-space Models)は、AudioSet-2Mでファインチューニングされた音声分類モデルです。DASSは、AST(Audio Spectrogram Transformer)、HTS-AT、Audio-MAEなどのTransformerベースの音声分類器を上回る最初の状態空間モデルです。DASSは、Audiosetの音声分類タスクで最先端の性能を達成し、同時にモデルサイズを大幅に削減します。
🚀 クイックスタート
DASS: Distilled Audio State-space Modelsは、AudioSet-2Mでファインチューニングされた音声分類モデルです。DASSは、AST (Audio Spectrogram Transformer)、HTS-AT、Audio-MAEなどのTransformerベースの音声分類器を上回る最初の状態空間モデルです。DASSは、音声分類タスクで最先端の性能を達成し、モデルサイズを大幅に削減します。例えば、約87Mのパラメータを持つASTと比較して、DASS-smallはその1/3の30Mのパラメータを持ち、ASTモデルを上回ります(AudioSet-2M mAP: 45.9対DASS small mAP: 47.2)。
また、DASSはASTモデルよりも大幅に持続時間に対するロバスト性が高く、短い音声でトレーニングし、長い音声で微調整せずにテストすることができます。例えば、10秒の音声でトレーニングされたASTとDASSの両方のモデルで、入力が50秒になるとASTモデルの性能は5 mAP未満に低下しますが、DASSの性能は同じ設定で45.5 mAP (96%) です。単一のA6000 GPUで、DASSは最大2.5時間の音声入力を受け取り、10秒の入力に対して62%の性能を維持することができます。
このモデルは論文 DASS: Distilled Audio State Space Models Are Stronger and More Duration-Scalable Learners で紹介され、このリポジトリ で最初に公開されました。
✨ 主な機能
- 高性能:最先端の音声分類性能を達成し、モデルサイズを大幅に削減。
- 持続時間ロバスト性:短い音声でトレーニングし、長い音声でも高い性能を維持。
📚 ドキュメント
モデルの詳細
DASSモデルは、VMamba: Visual State Space Model を音声に適用したものです。このモデルは、正解ラベルに対する二元交差エントロピー損失と教師モデルであるASTモデルに対するKLダイバージェンス損失を使用してトレーニングされています。
モデルの使用方法
以下のコードを使用して、モデルを使い始めることができます。
import torch
import librosa
from transformers import AutoConfig, AutoModelForAudioClassification, AutoFeatureExtractor
config = AutoConfig.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
audio_model = AutoModelForAudioClassification.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
feature_extractor = AutoFeatureExtractor.from_pretrained('saurabhati/DASS_small_AudioSet_47.2',trust_remote_code=True)
waveform, sr = librosa.load("audio/eval/_/_/--4gqARaEJE_0.000.flac", sr=16000)
inputs = feature_extractor(waveform,sr, return_tensors='pt')
with torch.no_grad():
logits = torch.sigmoid(audio_model(**inputs).logits)
predicted_class_ids = torch.where(logits[0] > 0.5)[0]
predicted_label = [audio_model.config.id2label[i.item()] for i in predicted_class_ids]
predicted_label
['Animal', 'Domestic animals, pets', 'Dog']
結果
以下は、AudioSet-2Mでファインチューニングされ、評価されたDASSモデルの結果です。
モデル名 |
パラメータ数 |
事前学習 |
mAP |
Transformerベースのモデル |
|
|
|
AST |
87M |
IN SL |
45.9 |
HTS-AT |
31M |
IN SL |
47.1 |
PaSST |
|
IN SL |
47.1 |
Audio-MAE |
86M |
SSL |
47.3 |
同時期のSSMモデル |
|
|
|
AuM |
26M |
IN SL |
39.7 |
Audio Mamba |
40M |
IN SL |
44.0 |
DASS-Small |
30M |
IN SL |
47.2 |
DASS-Medium |
49M |
IN SL |
47.6 |
📄 ライセンス
このプロジェクトはBSD 3条項ライセンスの下で公開されています。
引用
@article{bhati2024dass,
title={DASS: Distilled Audio State Space Models Are Stronger and More Duration-Scalable Learners},
author={Bhati, Saurabhchand and Gong, Yuan and Karlinsky, Leonid and Kuehne, Hilde and Feris, Rogerio and Glass, James},
journal={arXiv preprint arXiv:2407.04082},
year={2024}
}
謝辞
このプロジェクトは、AST (論文, コード) とVMamba (論文, コード) に基づいています。彼らの優れた成果に感謝します。