A

Ast Finetuned Audioset 10 10 0.4593

由MIT開發
音頻頻譜圖變換器(AST)是基於AudioSet微調的模型,將音頻轉換為頻譜圖後應用視覺變換器進行音頻分類。
下載量 308.88k
發布時間 : 11/14/2022

模型概述

該模型將音頻信號轉換為頻譜圖圖像,然後應用視覺變換器(ViT)架構進行音頻分類任務,在多個音頻分類基準測試中取得了優異表現。

模型特點

頻譜圖轉換
將音頻信號轉換為視覺頻譜圖表示,使視覺變換器能夠處理音頻數據
高性能音頻分類
在多個音頻分類基準測試中取得了最先進的結果
基於ViT架構
採用視覺變換器架構處理音頻頻譜圖,展示了跨模態應用的潛力

模型能力

音頻分類
音頻特徵提取
頻譜圖分析

使用案例

音頻內容分析
環境聲音分類
識別和分類各種環境聲音,如動物叫聲、交通工具聲等
在AudioSet等基準測試中表現優異
音樂分類
對音樂片段進行流派或樂器分類
多媒體內容理解
視頻音頻分析
結合視頻內容進行多模態分析
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase