ast-finetuned-audioset开源音频分类模型 - 高精度免费实现音频精准分类

首页

Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50

由 xpariz10 开发

该模型是基于AST架构在AudioSet数据集上预训练，并在ESC-50数据集上微调的音频分类模型，在评估集上取得了94.64%的准确率。

音频分类

Transformers

开源协议:Bsd-3-clause #音频分类 #高准确率 #迁移学习

下载量 24

发布时间 : 12/7/2022

模型简介

一个用于音频分类的深度学习模型，特别适用于环境声音分类任务。

模型特点

高准确率

在ESC-50评估集上达到94.64%的分类准确率

基于Transformer架构

采用AST(Audio Spectrogram Transformer)架构处理音频数据

迁移学习

先在AudioSet数据集上预训练，再在ESC-50上微调

模型能力

环境声音分类

音频特征提取

声音事件检测

使用案例

环境监测

城市声音分类

识别和分类城市环境中的各种声音

可准确识别交通、建筑、自然等多种环境声音

智能家居

家庭异常声音检测

检测家庭环境中的异常声音如玻璃破碎、警报等

训练损失	轮数	步数	验证损失	准确率
2.0621	1.0	28	0.4656	0.875
0.0694	2.0	56	0.3050	0.9107
0.0157	3.0	84	0.3356	0.9464
0.0038	4.0	112	0.3175	0.9286
0.0011	5.0	140	0.2579	0.9286

属性	详情
模型类型	ast - finetuned - audioset - 10 - 10 - 0.4593 - finetuning - ESC - 50
指标	准确率
生成来源	由训练器自动生成

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库

Ast Finetuned Audioset 10 10 0.4593 Finetuning ESC 50

模型简介

模型特点

模型能力

使用案例

🚀 ast-finetuned-audioset-10-10-0.4593-finetuning-ESC-50

🚀 快速开始

📚 详细文档

模型描述

预期用途与限制

训练和评估数据

🔧 技术细节

训练过程

训练超参数

训练结果

框架版本

📄 许可证

模型信息表格