ast-finetuned-audioset-14-14-0.443開源模型 - 高效轉換音頻到頻譜圖並精準分類

首頁

Ast Finetuned Audioset 14 14 0.443

由MIT開發

基於AudioSet數據集微調的音頻頻譜圖變換器，將音頻轉換為頻譜圖後使用視覺變換器架構處理，在音頻分類任務中表現優異。

音頻分類

Transformers

開源協議:Bsd-3-clause #音頻分類 #頻譜圖變換器 #AudioSet微調

下載量 194.20k

發布時間 : 11/14/2022

模型概述

該模型採用視覺變換器架構處理音頻頻譜圖，專門用於音頻分類任務，在AudioSet數據集上進行了微調。

模型特點

頻譜圖轉換

將音頻信號轉換為頻譜圖形式，使視覺變換器架構能夠處理音頻數據

基於Transformer

採用視覺變換器架構，避免了傳統CNN的歸納偏置

AudioSet微調

在大型音頻數據集AudioSet上進行微調，具有強大的音頻分類能力

模型能力

音頻分類

頻譜圖分析

多類別音頻識別

使用案例

音頻分析

環境聲音分類

識別和分類各種環境聲音，如動物叫聲、交通工具聲等

音樂分類

對音樂片段進行分類，識別流派或樂器

多媒體內容分析

視頻音頻分析

分析視頻中的音頻內容，輔助視頻分類和檢索

屬性	詳情
模型類型	音頻頻譜圖Transformer（在AudioSet上微調）
訓練數據	AudioSet

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Ast Finetuned Audioset 14 14 0.443

模型概述

模型特點

模型能力

使用案例

🚀 音頻頻譜圖Transformer（在AudioSet上微調）

🚀 快速開始

✨ 主要特性

📄 許可證