A

Ast Finetuned Audioset 16 16 0.442

MITによって開発
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、視覚トランスフォーマーアーキテクチャを使用してオーディオスペクトログラムを処理し、オーディオ分類タスクで優れた性能を発揮します。
ダウンロード数 35
リリース時間 : 11/14/2022

モデル概要

このモデルはオーディオをスペクトログラムに変換した後、視覚トランスフォーマーで処理し、オーディオ分類タスク専用に設計されており、AudioSetデータセットの多様なオーディオカテゴリ認識をサポートします。

モデル特徴

スペクトログラム変換処理
オーディオ信号をスペクトログラム形式に変換し、視覚トランスフォーマーアーキテクチャを利用して処理することで、効率的なオーディオ特徴抽出を実現します。
AudioSetファインチューニング
大規模なAudioSetデータセットでファインチューニングされており、強力なオーディオ分類能力を備えています。
最先端の性能
複数のオーディオ分類ベンチマークテストで最先端の成果を達成しました。

モデル能力

オーディオ分類
スペクトログラム分析
マルチカテゴリオーディオ認識

使用事例

オーディオコンテンツ分析
環境音認識
自然環境や都市環境における様々な音を識別
数百種類の環境音タイプを正確に分類可能
音楽分類
音楽フラグメントをジャンルや楽器で分類
マルチメディアコンテンツ審査
不適切コンテンツ検出
オーディオ中の暴力表現や不適切な言語などを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase