🚀 vit_base_patch16_1024_128.audiomae_as2m_ft_as20kのモデルカード
オーディオ用のVision Transformer (ViT)です。Self-Supervised Masked Autoencoder (MAE)手法を用いてAudioSet-2Mで事前学習され、AudioSet-20kでファインチューニングされています。
- これは、
timm
で使用するためのAudioMAE ViT-B/16の重みの移植版です。命名規則は他のtimm
のViTモデルから採用されています。
- 元のリポジトリはこちらを参照してください: https://github.com/facebookresearch/AudioMAE
- AudioSet-2Mで事前学習されたチェックポイント(Audioset-20kでのファインチューニングなし)については、https://huggingface.co/gaunernst/vit_base_patch16_1024_128.audiomae_as2m を参照してください。
🚀 クイックスタート
このモデルは、オーディオ分類や特徴抽出に使用できます。以下のセクションで詳細な使い方を説明します。
✨ 主な機能
- オーディオ分類と特徴抽出が可能です。
- AudioSet-2Mで事前学習され、AudioSet-20kでファインチューニングされています。
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
モデルタイプ |
オーディオ分類 / 特徴バックボーン |
論文 |
- Masked Autoencoders that Listen: https://arxiv.org/abs/2207.06405 |
事前学習データセット |
AudioSet-2M |
元のリポジトリ |
https://github.com/facebookresearch/AudioMAE |
💻 使用例
基本的な使用法
import timm
import torch
import torch.nn.functional as F
from torchaudio.compliance import kaldi
model = timm.create_model("hf_hub:gaunernst/vit_base_patch16_1024_128.audiomae_as2m_ft_as20k", pretrained=True)
model = model.eval()
MEAN = -4.2677393
STD = 4.5689974
audio = torch.randn(1, 10 * 16_000)
melspec = kaldi.fbank(audio, htk_compat=True, window_type="hanning", num_mel_bins=128)
if melspec.shape[0] < 1024:
melspec = F.pad(melspec, (0, 0, 0, 1024 - melspec.shape[0]))
else:
melspec = melspec[:1024]
melspec = (melspec - MEAN) / (STD * 2)
melspec = melspec.view(1, 1, 1024, 128)
output = model(melspec)
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
output
📄 ライセンス
このモデルはCC-BY-4.0ライセンスの下で提供されています。
📚 引用
@inproceedings{huang2022amae,
title = {Masked Autoencoders that Listen},
author = {Huang, Po-Yao and Xu, Hu and Li, Juncheng and Baevski, Alexei and Auli, Michael and Galuba, Wojciech and Metze, Florian and Feichtenhofer, Christoph}
booktitle = {NeurIPS},
year = {2022}
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}