ast - finetuned - audioset開源音頻分類模型 - 免費部署精準識別音樂流派

首頁

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

由wkCircle開發

該模型是基於Audio Spectrogram Transformer (AST)架構的音頻分類模型，在Audioset數據集上預訓練後，又在GTZAN音樂流派分類數據集上進行了微調。

音頻分類

Transformers

開源協議:Bsd-3-clause #音頻分類 #高準確率 #音樂流派識別

下載量 8

發布時間 : 2/2/2025

模型概述

這是一個用於音頻分類的Transformer模型，特別適用於音樂流派分類任務。模型在GTZAN數據集上微調後達到了91%的準確率。

模型特點

高準確率

在GTZAN音樂流派分類任務上達到91%的準確率

基於Transformer架構

採用Audio Spectrogram Transformer架構，專門處理音頻頻譜圖

遷移學習

先在Audioset大規模數據集上預訓練，再在GTZAN上微調

模型能力

音頻分類

音樂流派識別

音頻特徵提取

使用案例

音樂分析

音樂流派分類

自動識別音樂片段的流派類別

在GTZAN數據集上達到91%準確率

音頻內容分析

音頻內容分類

對音頻片段進行分類和標記

🚀 ast-finetuned-audioset-10-10-0.4593-finetuned-gtzan

本模型是 MIT/ast-finetuned-audioset-10-10-0.4593 在 GTZAN 數據集上的微調版本。它在評估集上取得了以下結果：

損失值：0.4517
準確率：0.91

📚 詳細文檔

模型描述

更多信息待補充。

預期用途與限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

🔧 技術細節

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：5e-05
訓練批次大小：2
評估批次大小：2
隨機種子：42
梯度累積步數：4
總訓練批次大小：8
優化器：使用 OptimizerNames.ADAMW_TORCH，β值為(0.9, 0.999)，ε值為 1e-08，無額外優化器參數
學習率調度器類型：線性
學習率調度器熱身比例：0.1
訓練輪數：15
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	準確率
1.3017	1.0	113	0.6180	0.78
0.5478	2.0	226	0.8031	0.77
0.3357	3.0	339	0.6511	0.87
0.1565	4.0	452	0.6858	0.87
0.0628	5.0	565	0.5638	0.86
0.0466	6.0	678	0.4399	0.91
0.0108	7.0	791	0.5120	0.88
0.0094	8.0	904	0.4854	0.89
0.0069	9.0	1017	0.4865	0.91
0.0061	10.0	1130	0.4674	0.91
0.0052	11.0	1243	0.4565	0.91
0.0027	12.0	1356	0.4557	0.91
0.0042	13.0	1469	0.4534	0.91
0.0028	14.0	1582	0.4523	0.91
0.0026	14.8711	1680	0.4517	0.91

框架版本

Transformers 4.48.2
Pytorch 2.6.0+cu126
Datasets 3.2.0
Tokenizers 0.21.0

📄 許可證

本項目採用 BSD 3 條款許可證（bsd-3-clause）。

📋 模型信息表格

屬性	詳情
庫名稱	transformers
許可證	BSD 3 條款許可證（bsd-3-clause）
基礎模型	MIT/ast-finetuned-audioset-10-10-0.4593
標籤	generated_from_trainer
數據集	marsyas/gtzan
評估指標	準確率
模型名稱	ast-finetuned-audioset-10-10-0.4593-finetuned-gtzan
任務	音頻分類（Audio Classification）
數據集名稱	GTZAN
數據集類型	marsyas/gtzan
數據集配置	all
數據集劃分	train
數據集參數	all
評估指標名稱	準確率
評估指標類型	準確率
評估指標值	0.91