A

Ast Finetuned Audioset 10 10 0.4593

Developed by MIT
音频频谱图变换器(AST)是基于AudioSet微调的模型,将音频转换为频谱图后应用视觉变换器进行音频分类。
Downloads 308.88k
Release Time : 11/14/2022

Model Overview

该模型将音频信号转换为频谱图图像,然后应用视觉变换器(ViT)架构进行音频分类任务,在多个音频分类基准测试中取得了优异表现。

Model Features

频谱图转换
将音频信号转换为视觉频谱图表示,使视觉变换器能够处理音频数据
高性能音频分类
在多个音频分类基准测试中取得了最先进的结果
基于ViT架构
采用视觉变换器架构处理音频频谱图,展示了跨模态应用的潜力

Model Capabilities

音频分类
音频特征提取
频谱图分析

Use Cases

音频内容分析
环境声音分类
识别和分类各种环境声音,如动物叫声、交通工具声等
在AudioSet等基准测试中表现优异
音乐分类
对音乐片段进行流派或乐器分类
多媒体内容理解
视频音频分析
结合视频内容进行多模态分析
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase