Model Selection

Audio Self-Supervised Learning

# Audio Self-Supervised Learning

Vit Base Patch16 1024 128.audiomae As2m Ft As20k

A Vision Transformer (ViT)-based audio processing model, pre-trained on AudioSet-2M using self-supervised masked autoencoder (MAE) method and fine-tuned on AudioSet-20k

Audio Classification

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase