A

Ast Finetuned Audioset 10 10 0.4593

Xenovaによって開発
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマー(AST)モデル、オーディオ分類タスク用
ダウンロード数 82
リリース時間 : 6/27/2023

モデル概要

このモデルはオーディオスペクトログラムトランスフォーマー(AST)アーキテクチャのバリアントで、AudioSetデータセットに特化してファインチューニングされており、汎用オーディオ分類タスクに適しています。様々なオーディオイベントや音声カテゴリを識別・分類できます。

モデル特徴

Transformerベースのオーディオ処理
ビジョントランスフォーマーアーキテクチャを採用してオーディオスペクトログラムを処理し、オーディオ信号のグローバルモデリングを実現
AudioSetファインチューニング
大規模オーディオデータセットAudioSetでファインチューニングされており、幅広いオーディオイベントを識別可能
ウェブ対応
ONNX形式の重みを提供し、Transformers.jsを通じてブラウザで直接実行可能

モデル能力

オーディオ分類
音声イベント検出
環境音認識

使用事例

スマートホーム
ペットの音声モニタリング
ペットが発する音声(猫の鳴き声、犬の吠え声など)を検出・分類
一般的なペットの音声を正確に識別可能
コンテンツモデレーション
オーディオコンテンツ分類
ユーザーがアップロードしたオーディオコンテンツを自動分類
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase