ast-finetuned-audioset-10-10-0.4593开源音频模型 - 支持音频转频谱图并精准分类

Home

Ast Finetuned Audioset 10 10 0.4593

Developed by MIT

音频频谱图变换器（AST）是基于AudioSet微调的模型，将音频转换为频谱图后应用视觉变换器进行音频分类。

音频分类

Transformers

Open Source License:Bsd-3-clause #音频分类 #频谱图变换 #AudioSet微调

Downloads 308.88k

Release Time : 11/14/2022

Model Overview

该模型将音频信号转换为频谱图图像，然后应用视觉变换器（ViT）架构进行音频分类任务，在多个音频分类基准测试中取得了优异表现。

Model Features

频谱图转换

将音频信号转换为视觉频谱图表示，使视觉变换器能够处理音频数据

高性能音频分类

在多个音频分类基准测试中取得了最先进的结果

基于ViT架构

采用视觉变换器架构处理音频频谱图，展示了跨模态应用的潜力

Model Capabilities

音频分类

音频特征提取

频谱图分析

Use Cases

音频内容分析

环境声音分类

识别和分类各种环境声音，如动物叫声、交通工具声等

在AudioSet等基准测试中表现优异

音乐分类

对音乐片段进行流派或乐器分类

多媒体内容理解

视频音频分析

结合视频内容进行多模态分析

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Ast Finetuned Audioset 10 10 0.4593

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 音频频谱图Transformer（在AudioSet上微调）

🚀 快速开始

✨ 主要特性

📄 许可证