ast-finetuned-audioset-10-10-0.448オープンソースモデル - 効率的にオーディオ分類タスクを完了

ホーム

Ast Finetuned Audioset 10 10 0.448

MITによって開発

AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマー（AST）。ビジョントランスフォーマー構造を使用してオーディオスペクトログラムを処理し、オーディオ分類タスクで優れた性能を発揮します。

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #オーディオ分類 #スペクトログラム処理 #Transformerアーキテクチャ

ダウンロード数 326

リリース時間 : 11/14/2022

モデル概要

このモデルはオーディオをスペクトログラムに変換し、ビジョントランスフォーマーで処理します。オーディオ分類タスクに適しており、AudioSetデータセットでファインチューニングされています。

モデル特徴

スペクトログラム変換

オーディオ信号をスペクトログラム形式に変換し、ビジョントランスフォーマーで処理します。

高性能分類

複数のオーディオ分類ベンチマークで最先端の結果を達成しています。

AudioSetファインチューニング

大規模なAudioSetデータセットを使用してファインチューニングを行い、モデルの汎化能力を向上させています。

モデル能力

オーディオ分類

スペクトログラム分析

使用事例

オーディオ分析

環境音分類

環境中の様々な音のタイプを識別・分類します

高精度な分類効果

音楽分類

音楽の断片をジャンルや楽器で分類します

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Ast Finetuned Audioset 10 10 0.448

モデル概要

モデル特徴

モデル能力

使用事例

🚀 音声スペクトログラムトランスフォーマー (AudioSetでファインチューニング済み)

🚀 クイックスタート

✨ 主な機能

📄 ライセンス