ast-finetuned-audioset-10-10-0.448-v2オープンソースオーディオモデル - 効率的なスペクトログラム変換、高精度なオーディオ分類

ホーム

Ast Finetuned Audioset 10 10 0.448 V2

MITによって開発

AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、オーディオをスペクトログラムに変換後、ビジョントランスフォーマーで処理し、オーディオ分類タスクで優れた性能を発揮します。

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #オーディオ分類 #スペクトログラム変換 #AudioSetファインチューニング

ダウンロード数 2,072

リリース時間 : 11/14/2022

モデル概要

このモデルはViTアーキテクチャに基づくオーディオ分類モデルで、オーディオ信号をスペクトログラム形式に変換し、ビジョントランスフォーマーで処理するため、様々なオーディオ分類タスクに適しています。

モデル特徴

スペクトログラム変換処理

オーディオ信号をスペクトログラム形式に変換し、ビジョントランスフォーマーアーキテクチャで処理することで、オーディオ特徴を効果的に捕捉します。

AudioSetファインチューニング

大規模オーディオデータセットAudioSetでファインチューニングされており、強力なオーディオ分類能力を備えています。

SOTA性能

複数のオーディオ分類ベンチマークテストで最先端の性能を達成しています。

モデル能力

オーディオ分類

スペクトログラム分析

オーディオ特徴抽出

使用事例

オーディオコンテンツ分析

環境音分類

動物の鳴き声や乗り物の音など、環境中の様々な音の種類を識別・分類します。

高精度な音声カテゴリ識別

音楽分類

音楽フラグメントをジャンルや楽器などで分類します。

マルチメディアコンテンツ審査

違法オーディオ検出

オーディオコンテンツ内に存在する可能性のある違法またはセンシティブなコンテンツを識別します。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Ast Finetuned Audioset 10 10 0.448 V2

モデル概要

モデル特徴

モデル能力

使用事例

🚀 オーディオスペクトログラムトランスフォーマー (AudioSetでファインチューニング済み)

✨ 主な機能

📚 ドキュメント

💻 使用例

📄 ライセンス