A

Ast Finetuned Audioset 12 12 0.447

Developed by MIT
基于AudioSet数据集微调的音频频谱变换器(AST),采用ViT架构处理音频频谱图,在多个音频分类基准测试中表现优异。
Downloads 25
Release Time : 11/14/2022

Model Overview

该模型将音频转换为频谱图后通过视觉变换器处理,主要用于音频分类任务,支持AudioSet的527个类别分类。

Model Features

频谱图处理
将音频信号转换为频谱图后使用视觉变换器处理,实现高效音频特征提取。
AudioSet微调
基于大规模AudioSet数据集微调,支持527个音频类别分类。
ViT架构适配
创新性地将视觉变换器(ViT)架构应用于音频领域,取得SOTA性能。

Model Capabilities

音频分类
频谱图分析
多类别音频识别

Use Cases

内容分类
环境声音识别
识别录音中的环境声音类型(如雨声、交通噪声等)
可准确分类AudioSet包含的527种环境声音
媒体分析
视频音轨分析
自动分析视频中的音轨内容类别
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase