A

Ast Finetuned Audioset 10 10 0.448

由MIT開發
基於AudioSet數據集微調的音頻頻譜圖變換器(AST),採用視覺變換器結構處理音頻頻譜圖,在音頻分類任務中表現優異。
下載量 326
發布時間 : 11/14/2022

模型概述

該模型將音頻轉換為頻譜圖後通過視覺變換器處理,適用於音頻分類任務,基於AudioSet數據集微調。

模型特點

頻譜圖轉換
將音頻信號轉換為頻譜圖形式,利用視覺變換器進行處理。
高性能分類
在多個音頻分類基準測試中取得最先進的成果。
基於AudioSet微調
使用大規模AudioSet數據集進行微調,提升模型泛化能力。

模型能力

音頻分類
頻譜圖分析

使用案例

音頻分析
環境聲音分類
識別和分類環境中的各種聲音類型
高準確率的分類效果
音樂分類
對音樂片段進行流派或樂器分類
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase