ast-finetuned-audioset-16-16-0.442オープンソースオーディオモデル - オーディオ分類タスクを効率的に処理

ホーム

Ast Finetuned Audioset 16 16 0.442

MITによって開発

AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、視覚トランスフォーマーアーキテクチャを使用してオーディオスペクトログラムを処理し、オーディオ分類タスクで優れた性能を発揮します。

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #オーディオ分類 #スペクトログラム処理 #トランスフォーマーアーキテクチャ

ダウンロード数 35

リリース時間 : 11/14/2022

モデル概要

このモデルはオーディオをスペクトログラムに変換した後、視覚トランスフォーマーで処理し、オーディオ分類タスク専用に設計されており、AudioSetデータセットの多様なオーディオカテゴリ認識をサポートします。

モデル特徴

スペクトログラム変換処理

オーディオ信号をスペクトログラム形式に変換し、視覚トランスフォーマーアーキテクチャを利用して処理することで、効率的なオーディオ特徴抽出を実現します。

AudioSetファインチューニング

大規模なAudioSetデータセットでファインチューニングされており、強力なオーディオ分類能力を備えています。

最先端の性能

複数のオーディオ分類ベンチマークテストで最先端の成果を達成しました。

モデル能力

オーディオ分類

スペクトログラム分析

マルチカテゴリオーディオ認識

使用事例

オーディオコンテンツ分析

環境音認識

自然環境や都市環境における様々な音を識別

数百種類の環境音タイプを正確に分類可能

音楽分類

音楽フラグメントをジャンルや楽器で分類

マルチメディアコンテンツ審査

不適切コンテンツ検出

オーディオ中の暴力表現や不適切な言語などを識別

🚀 オーディオスペクトログラムトランスフォーマー (AudioSetでファインチューニング済み)

AudioSetでファインチューニングされたオーディオスペクトログラムトランスフォーマー（AST）モデルです。オーディオ分類タスクに適用され、高い性能を発揮します。

🚀 クイックスタート

オーディオスペクトログラムトランスフォーマー（AST）は、ViT と同等の構造を持ち、オーディオデータに適用されます。オーディオは最初にスペクトログラムとして画像に変換され、その後ビジョントランスフォーマーが適用されます。このモデルはいくつかのオーディオ分類ベンチマークで最先端の結果を達成しています。

このモデルは、Gongらによる論文 AST: Audio Spectrogram Transformer で導入され、最初はこのリポジトリで公開されました。

なお、オーディオスペクトログラムトランスフォーマーを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

オーディオをスペクトログラムに変換し、ビジョントランスフォーマーを適用することで、オーディオ分類タスクに対応。
いくつかのオーディオ分類ベンチマークで最先端の結果を達成。

💻 使用例

基本的な使用法

生のモデルを使用して、オーディオをAudioSetのクラスのいずれかに分類することができます。詳細についてはドキュメントを参照してください。

📄 ライセンス

このモデルはBSD 3条項ライセンスの下で提供されています。

属性	详情
モデルタイプ	オーディオスペクトログラムトランスフォーマー (AudioSetでファインチューニング済み)
タグ	オーディオ分類