vit_base_patch16_1024_128.audiomae_as2m_ft_as20kオープンソースオーディオ処理モデル

ホーム

Vit Base Patch16 1024 128.audiomae As2m Ft As20k

gaunernstによって開発

視覚トランスフォーマー(ViT)ベースのオーディオ処理モデル、自己教師ありマスクオートエンコーダ(MAE)手法でAudioSet-2Mで事前学習し、AudioSet-20kでファインチューニング

音声分類 #オーディオ自己教師あり学習 #マスクオートエンコーダ #オーディオ分類

ダウンロード数 335

リリース時間 : 11/16/2023

モデル概要

このモデルは主にオーディオ分類と特徴抽出タスクに使用され、16kHzサンプリングレートのオーディオ入力を処理し分類結果または特徴ベクトルを出力

モデル特徴

自己教師あり事前学習

マスクオートエンコーダ(MAE)手法を使用しAudioSet-2Mで自己教師あり事前学習を行い、効果的にオーディオ特徴を学習

ファインチューニング最適化

AudioSet-20kデータセットでファインチューニングを行い、特定タスクの性能を向上

効率的な処理

1024フレームのオーディオ入力を固定処理し、標準化長さのオーディオセグメントのバッチ処理に適している

モデル能力

オーディオ分類

オーディオ特徴抽出

メルスペクトル分析

使用事例

オーディオ分析

オーディオイベント検出

オーディオ中の特定イベントまたは音声カテゴリを識別

オーディオ内容理解

下流タスク用にオーディオ内容の特徴表現を抽出

🚀 vit_base_patch16_1024_128.audiomae_as2m_ft_as20kのモデルカード

オーディオ用のVision Transformer (ViT)です。Self-Supervised Masked Autoencoder (MAE)手法を用いてAudioSet-2Mで事前学習され、AudioSet-20kでファインチューニングされています。

これは、timmで使用するためのAudioMAE ViT-B/16の重みの移植版です。命名規則は他のtimmのViTモデルから採用されています。
元のリポジトリはこちらを参照してください: https://github.com/facebookresearch/AudioMAE
AudioSet-2Mで事前学習されたチェックポイント（Audioset-20kでのファインチューニングなし）については、https://huggingface.co/gaunernst/vit_base_patch16_1024_128.audiomae_as2m を参照してください。

🚀 クイックスタート

このモデルは、オーディオ分類や特徴抽出に使用できます。以下のセクションで詳細な使い方を説明します。

✨ 主な機能

オーディオ分類と特徴抽出が可能です。
AudioSet-2Mで事前学習され、AudioSet-20kでファインチューニングされています。

📚 ドキュメント

モデルの詳細

属性	詳情
モデルタイプ	オーディオ分類 / 特徴バックボーン
論文	- Masked Autoencoders that Listen: https://arxiv.org/abs/2207.06405
事前学習データセット	AudioSet-2M
元のリポジトリ	https://github.com/facebookresearch/AudioMAE

💻 使用例

基本的な使用法

import timm
import torch
import torch.nn.functional as F
from torchaudio.compliance import kaldi

# NOTE: for timm<0.9.11, you also need to pass `global_pool='avg'`
# if only embeddings are needed, pass `num_classes=0`
model = timm.create_model("hf_hub:gaunernst/vit_base_patch16_1024_128.audiomae_as2m_ft_as20k", pretrained=True)
model = model.eval()

MEAN = -4.2677393
STD = 4.5689974

audio = torch.randn(1, 10 * 16_000)  # make sure input is 16kHz
melspec = kaldi.fbank(audio, htk_compat=True, window_type="hanning", num_mel_bins=128)  # shape (n_frames, 128)

# AudioMAE only accepts 1024-frame input
if melspec.shape[0] < 1024:
    melspec = F.pad(melspec, (0, 0, 0, 1024 - melspec.shape[0]))
else:
    melspec = melspec[:1024]
melspec = (melspec - MEAN) / (STD * 2)

melspec = melspec.view(1, 1, 1024, 128)  # add batch dim and channel dim
output = model(melspec)

# for classification
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

# for embeddings
output  # shape (1, 768)

📄 ライセンス

このモデルはCC-BY-4.0ライセンスの下で提供されています。

📚 引用

@inproceedings{huang2022amae,
  title = {Masked Autoencoders that Listen},
  author = {Huang, Po-Yao and Xu, Hu and Li, Juncheng and Baevski, Alexei and Auli, Michael and Galuba, Wojciech and Metze, Florian and Feichtenhofer, Christoph}
  booktitle = {NeurIPS},
  year = {2022}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}