A

Ast Finetuned Audioset 12 12 0.447

MITによって開発
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマー(AST)。ViTアーキテクチャを使用してオーディオスペクトログラムを処理し、複数のオーディオ分類ベンチマークで優れた性能を発揮します。
ダウンロード数 25
リリース時間 : 11/14/2022

モデル概要

このモデルはオーディオをスペクトログラムに変換後、ビジョントランスフォーマーで処理します。主にオーディオ分類タスクに使用され、AudioSetの527カテゴリ分類をサポートします。

モデル特徴

スペクトログラム処理
オーディオ信号をスペクトログラムに変換後、ビジョントランスフォーマーで処理することで効率的なオーディオ特徴抽出を実現。
AudioSetファインチューニング
大規模AudioSetデータセットでファインチューニングされており、527のオーディオカテゴリ分類をサポート。
ViTアーキテクチャ適応
ビジョントランスフォーマー(ViT)アーキテクチャをオーディオ領域に革新的に適用し、SOTA性能を達成。

モデル能力

オーディオ分類
スペクトログラム分析
マルチカテゴリオーディオ認識

使用事例

コンテンツ分類
環境音認識
録音中の環境音タイプを識別(雨音、交通騒音など)
AudioSetに含まれる527種類の環境音を正確に分類可能
メディア分析
ビデオ音声トラック分析
ビデオ内の音声トラック内容カテゴリを自動分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase