A

Ast Finetuned Audioset 10 10 0.448 V2

Developed by MIT
基于AudioSet数据集微调的音频频谱图变换器,将音频转换为频谱图后使用视觉变换器处理,在音频分类任务中表现优异。
Downloads 2,072
Release Time : 11/14/2022

Model Overview

该模型是基于ViT架构的音频分类模型,通过将音频信号转换为频谱图形式,再利用视觉变换器进行处理,适用于多种音频分类任务。

Model Features

频谱图转换处理
将音频信号转换为频谱图形式,利用视觉变换器架构进行处理,有效捕捉音频特征。
AudioSet微调
基于大规模音频数据集AudioSet进行微调,具备强大的音频分类能力。
SOTA性能
在多个音频分类基准测试中取得了最先进的性能表现。

Model Capabilities

音频分类
频谱图分析
音频特征提取

Use Cases

音频内容分析
环境声音分类
识别和分类环境中的各种声音类型,如动物叫声、交通工具声等。
高准确度的声音类别识别
音乐分类
对音乐片段进行流派、乐器等分类。
多媒体内容审核
违规音频检测
识别音频内容中可能存在的违规或敏感内容。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase