vit_base_patch16_1024_128.audiomae_as2m_ft_as20k開源音頻處理模型

首頁

Vit Base Patch16 1024 128.audiomae As2m Ft As20k

由gaunernst開發

基於視覺變換器(ViT)的音頻處理模型，通過自監督掩碼自編碼器(MAE)方法在AudioSet-2M上預訓練並在AudioSet-20k上微調

音頻分類 #音頻自監督學習 #掩碼自編碼器 #音頻分類

下載量 335

發布時間 : 11/16/2023

模型概述

該模型主要用於音頻分類和特徵提取任務，能夠處理16kHz採樣率的音頻輸入並輸出分類結果或特徵向量

模型特點

自監督預訓練

使用掩碼自編碼器(MAE)方法在AudioSet-2M上進行自監督預訓練，有效學習音頻特徵

微調優化

在AudioSet-20k數據集上進行了微調，提高了特定任務的性能

高效處理

固定處理1024幀音頻輸入，適合批量處理標準化長度的音頻片段

模型能力

音頻分類

音頻特徵提取

梅爾頻譜分析

使用案例

音頻分析

音頻事件檢測

識別音頻中的特定事件或聲音類別

音頻內容理解

提取音頻內容的特徵表示用於下游任務

🚀 vit_base_patch16_1024_128.audiomae_as2m_ft_as20k模型卡

這是一款用於音頻處理的視覺變換器（ViT）模型。它在AudioSet - 2M數據集上使用自監督掩碼自編碼器（MAE）方法進行預訓練，並在AudioSet - 20k數據集上進行微調。

這是AudioMAE ViT - B/16權重的移植版本，可與timm庫配合使用。命名約定借鑑了timm庫中的其他ViT模型。
查看原始倉庫：https://github.com/facebookresearch/AudioMAE
如需獲取AudioSet - 2M預訓練檢查點（未在Audioset - 20k上微調），請訪問：https://huggingface.co/gaunernst/vit_base_patch16_1024_128.audiomae_as2m

🚀 快速開始

本模型是針對音頻設計的視覺變換器（ViT），通過在AudioSet - 2M數據集上預訓練和AudioSet - 20k數據集上微調，可用於音頻分類等任務。

✨ 主要特性

基於視覺變換器（ViT）架構，適用於音頻領域。
使用自監督掩碼自編碼器（MAE）方法在AudioSet - 2M數據集上預訓練。
在AudioSet - 20k數據集上進行微調，提升模型性能。

📦 安裝指南

文檔未提及具體安裝步驟，可參考timm庫的官方安裝說明。

💻 使用示例

基礎用法

import timm
import torch
import torch.nn.functional as F
from torchaudio.compliance import kaldi

# NOTE: for timm<0.9.11, you also need to pass `global_pool='avg'`
# if only embeddings are needed, pass `num_classes=0`
model = timm.create_model("hf_hub:gaunernst/vit_base_patch16_1024_128.audiomae_as2m_ft_as20k", pretrained=True)
model = model.eval()

MEAN = -4.2677393
STD = 4.5689974

audio = torch.randn(1, 10 * 16_000)  # make sure input is 16kHz
melspec = kaldi.fbank(audio, htk_compat=True, window_type="hanning", num_mel_bins=128)  # shape (n_frames, 128)

# AudioMAE only accepts 1024-frame input
if melspec.shape[0] < 1024:
    melspec = F.pad(melspec, (0, 0, 0, 1024 - melspec.shape[0]))
else:
    melspec = melspec[:1024]
melspec = (melspec - MEAN) / (STD * 2)

melspec = melspec.view(1, 1, 1024, 128)  # add batch dim and channel dim
output = model(melspec)

# for classification
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

# for embeddings
output  # shape (1, 768)

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	音頻分類 / 特徵骨幹網絡
論文	Masked Autoencoders that Listen: https://arxiv.org/abs/2207.06405
預訓練數據集	AudioSet - 2M
原始倉庫	https://github.com/facebookresearch/AudioMAE

📄 許可證

本模型採用CC - BY - 4.0許可證。

📚 引用

@inproceedings{huang2022amae,
  title = {Masked Autoencoders that Listen},
  author = {Huang, Po-Yao and Xu, Hu and Li, Juncheng and Baevski, Alexei and Auli, Michael and Galuba, Wojciech and Metze, Florian and Feichtenhofer, Christoph}
  booktitle = {NeurIPS},
  year = {2022}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}