D

DASS Small AudioSet 47.2

saurabhatiによって開発
Transformerベースの音声分類器を初めて超えた状態空間モデルで、AudioSet音声分類タスクにおいて最先端の性能を実現し、同時にモデルサイズを大幅に縮小しました。
ダウンロード数 47
リリース時間 : 3/29/2025

モデル概要

AudioSet-2Mでファインチューニングされた音声分類モデルで、状態空間アーキテクチャを採用し、音声分類タスクにおいて従来のTransformerモデルよりも優れた性能を発揮し、より強い時間的ロバスト性を持ちます。

モデル特徴

効率的性能
わずか3000万パラメータのDASS-smallが8700万パラメータのASTモデルを性能で上回りました(mAP 47.2 vs 45.9)
時間的ロバスト性
長時間音声入力下でも性能が安定し、50秒入力でも10秒入力時の96%の性能を維持
超長時間音声処理
単一A6000 GPUで最長2.5時間の音声入力を処理可能で、性能は10秒入力時の62%を維持
蒸留学習
KLダイバージェンス損失を組み合わせて教師ASTモデルをターゲットに訓練し、学習効率を向上

モデル能力

音声分類
マルチラベル音声認識
長時間音声処理

使用事例

音声内容分析
環境音分類
自然環境や都市環境における様々な音を識別
動物の鳴き声や交通機関などの音カテゴリを正確に識別可能
音声イベント検出
音声ストリーム中の特定イベントや音を検出
ガラス割れや警報音などの重要イベントを検出可能
メディアコンテンツ管理
動画コンテンツタグ付け
音声分析を通じて動画コンテンツ分類を支援
動画コンテンツ検索と分類効率を向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase