🚀 vit_base_patch16_1024_128.audiomae_as2m_ft_as20k模型卡
这是一款用于音频处理的视觉变换器(ViT)模型。它在AudioSet - 2M数据集上使用自监督掩码自编码器(MAE)方法进行预训练,并在AudioSet - 20k数据集上进行微调。
- 这是AudioMAE ViT - B/16权重的移植版本,可与
timm
库配合使用。命名约定借鉴了timm
库中的其他ViT模型。
- 查看原始仓库:https://github.com/facebookresearch/AudioMAE
- 如需获取AudioSet - 2M预训练检查点(未在Audioset - 20k上微调),请访问:https://huggingface.co/gaunernst/vit_base_patch16_1024_128.audiomae_as2m
🚀 快速开始
本模型是针对音频设计的视觉变换器(ViT),通过在AudioSet - 2M数据集上预训练和AudioSet - 20k数据集上微调,可用于音频分类等任务。
✨ 主要特性
- 基于视觉变换器(ViT)架构,适用于音频领域。
- 使用自监督掩码自编码器(MAE)方法在AudioSet - 2M数据集上预训练。
- 在AudioSet - 20k数据集上进行微调,提升模型性能。
📦 安装指南
文档未提及具体安装步骤,可参考timm
库的官方安装说明。
💻 使用示例
基础用法
import timm
import torch
import torch.nn.functional as F
from torchaudio.compliance import kaldi
model = timm.create_model("hf_hub:gaunernst/vit_base_patch16_1024_128.audiomae_as2m_ft_as20k", pretrained=True)
model = model.eval()
MEAN = -4.2677393
STD = 4.5689974
audio = torch.randn(1, 10 * 16_000)
melspec = kaldi.fbank(audio, htk_compat=True, window_type="hanning", num_mel_bins=128)
if melspec.shape[0] < 1024:
melspec = F.pad(melspec, (0, 0, 0, 1024 - melspec.shape[0]))
else:
melspec = melspec[:1024]
melspec = (melspec - MEAN) / (STD * 2)
melspec = melspec.view(1, 1, 1024, 128)
output = model(melspec)
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
output
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
音频分类 / 特征骨干网络 |
论文 |
Masked Autoencoders that Listen: https://arxiv.org/abs/2207.06405 |
预训练数据集 |
AudioSet - 2M |
原始仓库 |
https://github.com/facebookresearch/AudioMAE |
📄 许可证
本模型采用CC - BY - 4.0许可证。
📚 引用
@inproceedings{huang2022amae,
title = {Masked Autoencoders that Listen},
author = {Huang, Po-Yao and Xu, Hu and Li, Juncheng and Baevski, Alexei and Auli, Michael and Galuba, Wojciech and Metze, Florian and Feichtenhofer, Christoph}
booktitle = {NeurIPS},
year = {2022}
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}