ced-base开源音频标记模型 - 免费部署，在Audioset展现先进性能

首页

Ced Base

由 mispeech 开发

CED是基于ViT-Transformer的简易音频标记模型，在Audioset上实现了最先进的性能表现。

音频分类

Transformers

开源协议:Apache-2.0 #高效音频分类 #可变长度输入 #轻量级Transformer

下载量 1,318

发布时间 : 11/24/2023

模型简介

CED是一个用于音频分类的Transformer模型，具有高效的推理速度和优异的性能表现。

模型特点

微调简化

采用梅尔频谱图的批归一化处理，微调时无需预先计算数据集的均值/方差。

支持可变长度输入

多数模型使用静态时频位置编码，限制了模型对短于10秒片段的泛化能力。CED解决了这一问题。

训练/推理加速

采用64维梅尔滤波器组和16x16无重叠分块，相比AST模型显著提高了训练/推理速度。

性能优势

仅1000万参数的CED模型超越多数先前约8000万参数的方案。

模型能力

音频分类

音频标记

使用案例

音频识别

识别打响指

可以准确识别音频中的打响指声音

准确分类

🚀 CED-Base模型

CED是基于ViT-Transformer的简单音频标签模型，在AudioSet数据集上实现了最优性能。

🚀 快速开始

CED模型为音频标签任务提供了高效且性能卓越的解决方案。它在AudioSet数据集上表现出色，具备简化微调、支持可变长度输入、加速训练和推理以及优异的性能等特点。

✨ 主要特性

简化微调：对Mel频谱图进行批量归一化。在微调时，无需像AST模型那样先计算数据集的均值和方差。
支持可变长度输入：大多数其他模型使用静态时频位置嵌入，这限制了模型对短于10秒音频片段的泛化能力。许多先前的Transformer模型为避免性能影响，将输入填充到10秒，这会大幅降低训练和推理速度。
训练/推理加速：采用64维梅尔滤波器组和16x16无重叠的图像块，从10秒的频谱图中可得到248个图像块。相比之下，AST在训练/推理时使用128个梅尔滤波器组和16x16（10x10重叠）卷积，会产生1212个图像块。CED-Tiny在普通CPU上的运行速度与可比的MobileNetV3相当。
性能优异：参数为1000万的CED模型性能优于大多数先前参数约为8000万的方法。

📦 安装指南

pip install git+https://github.com/jimbozhang/hf_transformers_custom_model_ced.git

💻 使用示例

基础用法

>>> from ced_model.feature_extraction_ced import CedFeatureExtractor
>>> from ced_model.modeling_ced import CedForAudioClassification

>>> model_name = "mispeech/ced-base"
>>> feature_extractor = CedFeatureExtractor.from_pretrained(model_name)
>>> model = CedForAudioClassification.from_pretrained(model_name)

>>> import torchaudio
>>> audio, sampling_rate = torchaudio.load("resources/JeD5V5aaaoI_931_932.wav")
>>> assert sampling_rate == 16000
>>> inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt")

>>> import torch
>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = torch.argmax(logits, dim=-1).item()
>>> model.config.id2label[predicted_class_id]
'Finger snapping'