ast-finetuned-audiosetオープンソースオーディオ分類モデル - 高精度で無料でオーディオの正確な分類を実現

ホーム

Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50

xpariz10によって開発

このモデルはASTアーキテクチャに基づきAudioSetデータセットで事前学習され、ESC-50データセットでファインチューニングされたオーディオ分類モデルで、評価セットで94.64%の精度を達成しました。

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #オーディオ分類 #高精度 #転移学習

ダウンロード数 24

リリース時間 : 12/7/2022

モデル概要

オーディオ分類のための深層学習モデルで、特に環境音分類タスクに適しています。

モデル特徴

高精度

ESC-50評価セットで94.64%の分類精度を達成

Transformerアーキテクチャベース

AST(Audio Spectrogram Transformer)アーキテクチャを採用してオーディオデータを処理

転移学習

最初にAudioSetデータセットで事前学習し、その後ESC-50でファインチューニング

モデル能力

環境音分類

オーディオ特徴抽出

音響イベント検出

使用事例

環境モニタリング

都市音分類

都市環境における様々な音を識別・分類

交通、建築、自然など多様な環境音を正確に識別可能

スマートホーム

家庭内異常音検出

ガラス破損、警報音などの家庭環境における異常音を検出

学習損失	エポック	ステップ	検証損失	正解率
2.0621	1.0	28	0.4656	0.875
0.0694	2.0	56	0.3050	0.9107
0.0157	3.0	84	0.3356	0.9464
0.0038	4.0	112	0.3175	0.9286
0.0011	5.0	140	0.2579	0.9286

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ast-finetuned-audioset-10-10-0.4593-finetuning-ESC-50

🚀 クイックスタート

📚 ドキュメント

モデルの説明

想定される用途と制限

学習と評価データ

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス