ast-finetuned-audioset-10-10-0.450オープンソースオーディオモデル - スペクトログラムの効率的な処理とオーディオの高精度分類

ホーム

Ast Finetuned Audioset 10 10 0.450

MITによって開発

AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、ViTアーキテクチャを使用してオーディオスペクトログラムを処理し、オーディオ分類タスクで優れた性能を発揮します。

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #オーディオ分類 #スペクトログラム処理 #トランスフォーマーアーキテクチャ

ダウンロード数 109

リリース時間 : 11/14/2022

モデル概要

このモデルはオーディオをスペクトログラムに変換した後、ビジョントランスフォーマーで処理し、オーディオ分類タスクに適しており、複数のベンチマークテストで最先端のレベルを達成しています。

モデル特徴

スペクトログラム処理

オーディオ信号をスペクトログラム形式に変換し、ビジョントランスフォーマーアーキテクチャで処理します

AudioSetファインチューニング

大規模なAudioSetデータセットでファインチューニングされており、強力なオーディオ分類能力を備えています

最先端性能

複数のオーディオ分類ベンチマークテストで最先端の成果を達成しています

モデル能力

オーディオ分類

スペクトログラム分析

マルチクラスオーディオ認識

使用事例

オーディオコンテンツ分析

環境音分類

様々な環境音（動物の鳴き声、乗り物の音など）を識別・分類します

AudioSetの527の音声カテゴリを正確に分類可能

音楽分類

音楽の断片をジャンルや楽器で分類します

マルチメディアコンテンツ審査

不適切コンテンツ検出

オーディオ内の不適切またはセンシティブなコンテンツを識別します

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Ast Finetuned Audioset 10 10 0.450

モデル概要

モデル特徴

モデル能力

使用事例

🚀 音声スペクトログラムトランスフォーマー (AudioSetでファインチューニング済み)

🚀 クイックスタート

✨ 主な機能

📄 ライセンス