ast-finetuned-audioset-12-12-0.447オープンソース音声モデル

ホーム

Ast Finetuned Audioset 12 12 0.447

MITによって開発

AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマー（AST）。ViTアーキテクチャを使用してオーディオスペクトログラムを処理し、複数のオーディオ分類ベンチマークで優れた性能を発揮します。

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #オーディオ分類 #スペクトログラム処理 #ViTアーキテクチャ

ダウンロード数 25

リリース時間 : 11/14/2022

モデル概要

このモデルはオーディオをスペクトログラムに変換後、ビジョントランスフォーマーで処理します。主にオーディオ分類タスクに使用され、AudioSetの527カテゴリ分類をサポートします。

モデル特徴

スペクトログラム処理

オーディオ信号をスペクトログラムに変換後、ビジョントランスフォーマーで処理することで効率的なオーディオ特徴抽出を実現。

AudioSetファインチューニング

大規模AudioSetデータセットでファインチューニングされており、527のオーディオカテゴリ分類をサポート。

ViTアーキテクチャ適応

ビジョントランスフォーマー（ViT）アーキテクチャをオーディオ領域に革新的に適用し、SOTA性能を達成。

モデル能力

オーディオ分類

スペクトログラム分析

マルチカテゴリオーディオ認識

使用事例

コンテンツ分類

環境音認識

録音中の環境音タイプを識別（雨音、交通騒音など）

AudioSetに含まれる527種類の環境音を正確に分類可能

メディア分析

ビデオ音声トラック分析

ビデオ内の音声トラック内容カテゴリを自動分析

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Ast Finetuned Audioset 12 12 0.447

モデル概要

モデル特徴

モデル能力

使用事例

🚀 オーディオスペクトログラムトランスフォーマー (AudioSetでファインチューニング済み)

🚀 クイックスタート

✨ 主な機能

📄 ライセンス