A

Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50 Slower LR

xpariz10によって開発
ASTアーキテクチャに基づくオーディオ分類モデルで、AudioSetデータセットで事前学習後、ESC-50データセットで微調整
ダウンロード数 22
リリース時間 : 12/10/2022

モデル概要

このモデルはオーディオ分類モデルで、AST(Audio Spectrogram Transformer)アーキテクチャを使用し、最初にAudioSetデータセットで事前学習を行い、その後ESC-50環境音分類データセットで微調整を行いました。

モデル特徴

Transformerベースのオーディオ処理
ASTアーキテクチャを採用し、Transformerをオーディオスペクトログラム処理に成功裏に適用
2段階トレーニング
最初に大規模なAudioSetデータセットで事前学習し、その後ESC-50データセットで微調整
高精度
評価セットで89.29%の精度を達成

モデル能力

オーディオ分類
環境音認識
音声イベント検出

使用事例

スマートホーム
家電製品音認識
家庭内の異なる電気機器の音を識別
環境モニタリング
自然環境音分類
森林、都市など異なる環境中の音を識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase