A

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

wkCircleによって開発
このモデルはAudio Spectrogram Transformer (AST)アーキテクチャに基づくオーディオ分類モデルで、Audiosetデータセットで事前学習された後、GTZAN音楽ジャンル分類データセットでファインチューニングされています。
ダウンロード数 8
リリース時間 : 2/2/2025

モデル概要

これはオーディオ分類のためのTransformerモデルで、特に音楽ジャンル分類タスクに適しています。モデルはGTZANデータセットでファインチューニング後、91%の精度を達成しました。

モデル特徴

高精度
GTZAN音楽ジャンル分類タスクで91%の精度を達成
Transformerアーキテクチャベース
Audio Spectrogram Transformerアーキテクチャを採用し、オーディオスペクトログラムを専門的に処理
転移学習
まずAudioset大規模データセットで事前学習し、その後GTZANでファインチューニング

モデル能力

オーディオ分類
音楽ジャンル識別
オーディオ特徴抽出

使用事例

音楽分析
音楽ジャンル分類
音楽クリップのジャンルカテゴリを自動識別
GTZANデータセットで91%の精度を達成
オーディオコンテンツ分析
オーディオコンテンツ分類
オーディオクリップを分類してタグ付け
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase