distil-ast-audiosetオープンソース音声分類モデル - 様々な音声分類タスクを効率的に完了

ホーム

Distil Ast Audioset

bookbotによって開発

音声スペクトルトランスフォーマーアーキテクチャに基づく音声分類モデルで、オリジナル版AST AudioSetモデルの蒸留版であり、音声分類タスクに適しています。

音声分類

Transformers

英語オープンソースライセンス:Apache-2.0 #音声分類蒸留 #スペクトルトランスフォーマー #軽量音声処理

ダウンロード数 917

リリース時間 : 3/20/2023

モデル概要

このモデルは、MIT/ast-finetuned-audioset-10-10-0.4593をAudioSetデータセットで蒸留したバージョンで、主に音声分類タスクに使用されます。

モデル特徴

蒸留版モデル

オリジナル版AST AudioSetモデルを蒸留することで、モデルパラメータ数を削減しつつ、良好な性能を維持しています。

高性能音声分類

AudioSetデータセットで優れた性能を発揮し、F1値は0.4876、ROC AUCは0.7140を達成しました。

効率的なトレーニング

HuggingFaceのPyTorchフレームワークを使用してトレーニングされ、混合精度トレーニングをサポートし、トレーニング効率を最適化しています。

モデル能力

音声分類

スペクトル分析

マルチラベル分類

使用事例

音声処理

環境音分類

動物の鳴き声や乗り物の音など、環境中の様々な音を識別・分類するために使用されます。

F1値は0.4876、ROC AUCは0.7140を達成しました。

音楽分類

音楽を分類し、異なる音楽ジャンルや楽器の音を識別するために使用されます。

平均精度(mAP)は0.4743でした。

🚀 Distil Audio Spectrogram Transformer AudioSet

Distil Audio Spectrogram Transformer AudioSetは、Audio Spectrogram Transformerアーキテクチャに基づく音声分類モデルです。このモデルは、AudioSetデータセット上でMIT/ast-finetuned-audioset-10-10-0.4593を蒸留したバージョンです。

このモデルは、HuggingFaceのPyTorchフレームワークを使用してトレーニングされました。すべてのトレーニングは、Tesla A100 GPUを搭載したGoogle Cloud Engine VM上で行われました。トレーニングに使用されたすべての必要なスクリプトは、Files and versionsタブにあり、Tensorboardを介して記録されたTraining metricsも参照できます。

📚 詳細ドキュメント

🔍 モデル

モデル	パラメータ数	アーキテクチャ	トレーニング/検証データ
`distil-ast-audioset`	44M	Audio Spectrogram Transformer	AudioSet

📊 評価結果

モデルは、評価で次の結果を達成しています。

モデル	F1	Roc Auc	正解率	mAP
Distil-AST AudioSet	0.4876	0.7140	0.0714	0.4743
AST AudioSet	0.4989	0.6905	0.1247	0.5603

🛠️ トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは次のとおりです。

learning_rate: 3e-05
train_batch_size: 32
eval_batch_size: 32
seed: 0
gradient_accumulation_steps: 4
total_train_batch_size: 128
optimizer: Adam (betas=(0.9,0.999) かつ epsilon=1e-08)
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
num_epochs: 10.0
mixed_precision_training: Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	F1	Roc Auc	正解率	mAP
1.5521	1.0	153	0.7759	0.3929	0.6789	0.0209	0.3394
0.7088	2.0	306	0.5183	0.4480	0.7162	0.0349	0.4047
0.484	3.0	459	0.4342	0.4673	0.7241	0.0447	0.4348
0.369	4.0	612	0.3847	0.4777	0.7332	0.0504	0.4463
0.2943	5.0	765	0.3587	0.4838	0.7284	0.0572	0.4556
0.2446	6.0	918	0.3415	0.4875	0.7296	0.0608	0.4628
0.2099	7.0	1071	0.3273	0.4896	0.7246	0.0648	0.4682
0.186	8.0	1224	0.3140	0.4888	0.7171	0.0689	0.4711
0.1693	9.0	1377	0.3101	0.4887	0.7157	0.0703	0.4741
0.1582	10.0	1530	0.3063	0.4876	0.7140	0.0714	0.4743

⚠️ 免責事項

事前トレーニングデータセットに由来するバイアスが、このモデルの結果に引き継がれる可能性があることを考慮してください。

👨‍💻 作成者

Distil Audio Spectrogram Transformer AudioSetは、Ananto Joyoadikusumo、David Samuel Setiawan、Wilson Wongsoによってトレーニングおよび評価されました。すべての計算と開発はGoogle Cloud上で行われました。