ast-finetuned-audioset-10-10-0.4593オープンソース音声モデル - 音声をスペクトログラムに変換し、高精度で分類することをサポート

ホーム

Ast Finetuned Audioset 10 10 0.4593

MITによって開発

オーディオスペクトログラムトランスフォーマー（AST）はAudioSetでファインチューニングされたモデルで、オーディオをスペクトログラムに変換後、ビジョントランスフォーマーを適用してオーディオ分類を行います。

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #オーディオ分類 #スペクトログラム変換 #AudioSetファインチューニング

ダウンロード数 308.88k

リリース時間 : 11/14/2022

モデル概要

このモデルはオーディオ信号をスペクトログラム画像に変換し、ビジョントランスフォーマー（ViT）アーキテクチャを適用してオーディオ分類タスクを実行します。複数のオーディオ分類ベンチマークテストで優れた性能を発揮しています。

モデル特徴

スペクトログラム変換

オーディオ信号を視覚的なスペクトログラム表現に変換し、ビジョントランスフォーマーがオーディオデータを処理できるようにします

高性能オーディオ分類

複数のオーディオ分類ベンチマークテストで最先端の結果を達成しました

ViTアーキテクチャベース

ビジョントランスフォーマーアーキテクチャを採用してオーディオスペクトログラムを処理し、クロスモーダルアプリケーションの可能性を示しています

モデル能力

オーディオ分類

オーディオ特徴量抽出

スペクトログラム分析

使用事例

オーディオコンテンツ分析

環境音分類

動物の鳴き声や乗り物の音など、様々な環境音を識別・分類します

AudioSetなどのベンチマークテストで優れた性能を発揮

音楽分類

音楽フラグメントをジャンルや楽器で分類します

マルチメディアコンテンツ理解

ビデオオーディオ分析

ビデオコンテンツと組み合わせてマルチモーダル分析を行います

🚀 オーディオスペクトログラムトランスフォーマー (AudioSetでファインチューニング済み)

このモデルは、AudioSetでファインチューニングされたオーディオスペクトログラムトランスフォーマー（AST）です。Gongらによる論文 AST: Audio Spectrogram Transformer で紹介され、最初はこのリポジトリで公開されました。

免責事項: オーディオスペクトログラムトランスフォーマーを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

オーディオスペクトログラムトランスフォーマーは、音声分類に特化したモデルです。音声をスペクトログラムに変換し、それを画像として扱ってVision Transformerを適用することで、高精度な音声分類を実現します。

✨ 主な機能

AudioSetでファインチューニングされた、最先端の音声分類モデルです。
音声をスペクトログラムに変換し、Vision Transformerを適用する独自のアプローチを採用しています。
複数の音声分類ベンチマークで、高い精度を達成しています。

📚 ドキュメント

モデルの説明

オーディオスペクトログラムトランスフォーマーは、ViT と同等のモデルですが、音声に適用されています。音声は最初に画像（スペクトログラム）に変換され、その後Vision Transformerが適用されます。このモデルは、いくつかの音声分類ベンチマークで最先端の結果を得ています。

使用方法

生のモデルを使用して、オーディオをAudioSetのクラスのいずれかに分類することができます。詳細については、ドキュメントを参照してください。

📄 ライセンス

このモデルは、BSD 3条項ライセンス（BSD-3-Clause）の下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご