ced-base開源音頻標記模型 - 免費部署，在Audioset展現先進性能

首頁

Ced Base

由mispeech開發

CED是基於ViT-Transformer的簡易音頻標記模型，在Audioset上實現了最先進的性能表現。

音頻分類

Transformers

開源協議:Apache-2.0 #高效音頻分類 #可變長度輸入 #輕量級Transformer

下載量 1,318

發布時間 : 11/24/2023

模型概述

CED是一個用於音頻分類的Transformer模型，具有高效的推理速度和優異的性能表現。

模型特點

微調簡化

採用梅爾頻譜圖的批歸一化處理，微調時無需預先計算數據集的均值/方差。

支持可變長度輸入

多數模型使用靜態時頻位置編碼，限制了模型對短於10秒片段的泛化能力。CED解決了這一問題。

訓練/推理加速

採用64維梅爾濾波器組和16x16無重疊分塊，相比AST模型顯著提高了訓練/推理速度。

性能優勢

僅1000萬參數的CED模型超越多數先前約8000萬參數的方案。

模型能力

音頻分類

音頻標記

使用案例

音頻識別

識別打響指

可以準確識別音頻中的打響指聲音

準確分類

🚀 CED-Base模型

CED是基於ViT-Transformer的簡單音頻標籤模型，在AudioSet數據集上實現了最優性能。

🚀 快速開始

CED模型為音頻標籤任務提供了高效且性能卓越的解決方案。它在AudioSet數據集上表現出色，具備簡化微調、支持可變長度輸入、加速訓練和推理以及優異的性能等特點。

✨ 主要特性

簡化微調：對Mel頻譜圖進行批量歸一化。在微調時，無需像AST模型那樣先計算數據集的均值和方差。
支持可變長度輸入：大多數其他模型使用靜態時頻位置嵌入，這限制了模型對短於10秒音頻片段的泛化能力。許多先前的Transformer模型為避免性能影響，將輸入填充到10秒，這會大幅降低訓練和推理速度。
訓練/推理加速：採用64維梅爾濾波器組和16x16無重疊的圖像塊，從10秒的頻譜圖中可得到248個圖像塊。相比之下，AST在訓練/推理時使用128個梅爾濾波器組和16x16（10x10重疊）卷積，會產生1212個圖像塊。CED-Tiny在普通CPU上的運行速度與可比的MobileNetV3相當。
性能優異：參數為1000萬的CED模型性能優於大多數先前參數約為8000萬的方法。

📦 安裝指南

pip install git+https://github.com/jimbozhang/hf_transformers_custom_model_ced.git

💻 使用示例

基礎用法

>>> from ced_model.feature_extraction_ced import CedFeatureExtractor
>>> from ced_model.modeling_ced import CedForAudioClassification

>>> model_name = "mispeech/ced-base"
>>> feature_extractor = CedFeatureExtractor.from_pretrained(model_name)
>>> model = CedForAudioClassification.from_pretrained(model_name)

>>> import torchaudio
>>> audio, sampling_rate = torchaudio.load("resources/JeD5V5aaaoI_931_932.wav")
>>> assert sampling_rate == 16000
>>> inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt")

>>> import torch
>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = torch.argmax(logits, dim=-1).item()
>>> model.config.id2label[predicted_class_id]
'Finger snapping'