🚀 vit_base_patch16_1024_128.audiomae_as2m_ft_as20k模型卡
這是一款用於音頻處理的視覺變換器(ViT)模型。它在AudioSet - 2M數據集上使用自監督掩碼自編碼器(MAE)方法進行預訓練,並在AudioSet - 20k數據集上進行微調。
- 這是AudioMAE ViT - B/16權重的移植版本,可與
timm
庫配合使用。命名約定借鑑了timm
庫中的其他ViT模型。
- 查看原始倉庫:https://github.com/facebookresearch/AudioMAE
- 如需獲取AudioSet - 2M預訓練檢查點(未在Audioset - 20k上微調),請訪問:https://huggingface.co/gaunernst/vit_base_patch16_1024_128.audiomae_as2m
🚀 快速開始
本模型是針對音頻設計的視覺變換器(ViT),通過在AudioSet - 2M數據集上預訓練和AudioSet - 20k數據集上微調,可用於音頻分類等任務。
✨ 主要特性
- 基於視覺變換器(ViT)架構,適用於音頻領域。
- 使用自監督掩碼自編碼器(MAE)方法在AudioSet - 2M數據集上預訓練。
- 在AudioSet - 20k數據集上進行微調,提升模型性能。
📦 安裝指南
文檔未提及具體安裝步驟,可參考timm
庫的官方安裝說明。
💻 使用示例
基礎用法
import timm
import torch
import torch.nn.functional as F
from torchaudio.compliance import kaldi
model = timm.create_model("hf_hub:gaunernst/vit_base_patch16_1024_128.audiomae_as2m_ft_as20k", pretrained=True)
model = model.eval()
MEAN = -4.2677393
STD = 4.5689974
audio = torch.randn(1, 10 * 16_000)
melspec = kaldi.fbank(audio, htk_compat=True, window_type="hanning", num_mel_bins=128)
if melspec.shape[0] < 1024:
melspec = F.pad(melspec, (0, 0, 0, 1024 - melspec.shape[0]))
else:
melspec = melspec[:1024]
melspec = (melspec - MEAN) / (STD * 2)
melspec = melspec.view(1, 1, 1024, 128)
output = model(melspec)
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
output
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
音頻分類 / 特徵骨幹網絡 |
論文 |
Masked Autoencoders that Listen: https://arxiv.org/abs/2207.06405 |
預訓練數據集 |
AudioSet - 2M |
原始倉庫 |
https://github.com/facebookresearch/AudioMAE |
📄 許可證
本模型採用CC - BY - 4.0許可證。
📚 引用
@inproceedings{huang2022amae,
title = {Masked Autoencoders that Listen},
author = {Huang, Po-Yao and Xu, Hu and Li, Juncheng and Baevski, Alexei and Auli, Michael and Galuba, Wojciech and Metze, Florian and Feichtenhofer, Christoph}
booktitle = {NeurIPS},
year = {2022}
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}