S

Ssast Small Patch Audioset 16 16

Developed by Simon-Kotchou
基于AudioSet和Librispeech预训练的音频分类模型,采用视觉变换器架构处理音频频谱图
Downloads 2,408
Release Time : 1/10/2024

Model Overview

该模型将音频转换为频谱图后应用视觉变换器架构,在多个音频分类任务中取得先进成果。包含未初始化的分类器头部,需微调后使用。

Model Features

自监督预训练
利用大规模音频数据进行自监督学习,无需标注数据即可学习通用音频特征
频谱图变换器架构
将视觉变换器(ViT)创新性地应用于音频频谱图,实现端到端音频特征学习
多任务适应性
预训练模型可通过微调适配多种音频分类任务

Model Capabilities

音频特征提取
音频分类
频谱图分析

Use Cases

音频内容分析
环境声音分类
识别录音中的环境声音类型(如雨声、交通噪声等)
在AudioSet基准测试中表现优异
语音内容分类
对语音录音进行内容分类(如情感识别、语种识别等)
基于Librispeech预训练,适合语音相关任务
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase