S

Ssast Base Patch Audioset 16 16

由 Simon-Kotchou 开发
基于AudioSet/Librispeech预训练的音频分类模型,采用自监督学习方式训练
下载量 56
发布时间 : 1/10/2024

模型简介

该模型将音频转换为频谱图后应用视觉变换器架构,在多个音频分类任务中表现优异,分类器头部需微调后使用

模型特点

自监督预训练
采用自监督学习方式在大规模音频数据上预训练,减少对标注数据的依赖
频谱图变换器架构
创新性地将视觉变换器(ViT)应用于音频频谱图,实现高效特征提取
多任务适应性
预训练模型可通过微调适应多种音频分类任务

模型能力

音频特征提取
音频分类
频谱图分析

使用案例

音频内容分析
环境声音分类
识别和分类各种环境声音(如动物叫声、交通噪音等)
在AudioSet基准测试中达到最先进水平
语音情感识别
通过语音频谱分析说话者情感状态
语音处理
语音命令识别
识别短语音命令
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase