A

Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50 Slower LR

由xpariz10開發
基於AST架構的音頻分類模型,在AudioSet數據集上預訓練後,在ESC-50數據集上微調
下載量 22
發布時間 : 12/10/2022

模型概述

該模型是一個音頻分類模型,使用AST(Audio Spectrogram Transformer)架構,先在AudioSet數據集上進行預訓練,然後在ESC-50環境聲音分類數據集上進行微調。

模型特點

基於Transformer的音頻處理
採用AST架構,將Transformer成功應用於音頻頻譜圖處理
兩階段訓練
先在大型AudioSet數據集上預訓練,再在ESC-50數據集上微調
高準確率
在評估集上達到89.29%的準確率

模型能力

音頻分類
環境聲音識別
聲音事件檢測

使用案例

智能家居
家電聲音識別
識別家中不同電器設備的聲音
環境監測
自然環境聲音分類
識別森林、城市等不同環境中的聲音
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase