hubert-base-audioset開源音頻表徵模型 - 適用於通用音頻任務免費部署

首頁

Hubert Base Audioset

由ALM開發

基於HuBERT架構的音頻表徵模型，在完整AudioSet數據集上預訓練，適用於通用音頻任務

音頻分類

Transformers

#通用音頻表徵 #多領域適用 #自監督學習

下載量 345

發布時間 : 8/29/2023

模型概述

該模型採用HuBERT架構，在完整AudioSet數據集上進行預訓練，能夠提取通用音頻特徵，適用於多種音頻處理任務

模型特點

AudioSet完整數據集預訓練

使用完整的AudioSet數據集進行預訓練，覆蓋廣泛的音頻類別

通用音頻表徵

學習到的特徵適用於多種音頻任務，包括音樂分類和聲學事件檢測

HuBERT架構優勢

利用HuBERT的自監督學習框架，有效捕捉音頻信號的潛在特徵

模型能力

音頻特徵提取

音樂分類

聲學事件檢測

語音識別輔助

使用案例

音頻分析

音樂流派分類

提取音樂音頻特徵用於流派分類

環境聲音識別

識別環境中的特定聲音事件

語音處理

語音識別輔助

作為語音識別系統的前端特徵提取器

效果可能遜於專用語音模型

🚀 預訓練音頻表徵模型：AudioSet上的模型卡

本模型卡介紹了由ALM發佈的預訓練音頻表徵模型的相關信息。這些模型在完整的AudioSet數據集上進行了預訓練，適用於通用的音頻表徵學習（ARL）任務。

📚 模型介紹

1. ALM/hubert-base-audioset

架構：基於HuBERT（Hubert-Base）的Transformer模型
描述：該模型基於HuBERT架構，在完整的AudioSet數據集上進行了預訓練。

2. ALM/hubert-large-audioset

架構：基於HuBERT（Hubert-Large）的Transformer模型
描述：與hubert-base-audioset模型類似，但規模更大，能夠從完整的AudioSet數據集中捕獲更多的音頻表徵信息。

3. ALM/wav2vec2-base-audioset

架構：基於Wav2Vec 2.0（Wav2Vec2-Base）的Transformer模型
描述：該模型基於Wav2Vec 2.0架構，使用帶有對比預測編碼（CPC）的自監督學習（SSL）方法在完整的AudioSet數據集上進行訓練。與HuBERT模型相比，它提供了一種不同的音頻表徵學習方法。

4. ALM/wav2vec2-large-audioset

架構：基於Wav2Vec 2.0（Wav2Vec2-Large）的Transformer模型
描述：與wav2vec2-base-audioset模型類似，但規模更大，能夠從完整的AudioSet數據集中學習到更豐富的音頻表徵信息。

🎯 預期用途

這些預訓練模型適用於廣泛的音頻表徵學習任務，包括但不限於語音識別、音樂分類和聲學事件檢測。它們是強大的特徵提取工具，可在特定任務的數據集上進行微調，以用於下游應用。

需要注意的是，雖然這些模型在各種音頻領域具有通用性，但在語音相關任務中的表現可能相對低於專門的模型，如原始的Wav2Vec和HuBERT模型。這是因為用於預訓練的AudioSet數據集具有多樣性，包含了除語音之外的廣泛音頻來源。

⚠️ 侷限性和注意事項

這些模型在完整的AudioSet數據集上進行預訓練，可能無法全面覆蓋所有可能的音頻領域。
為了在某些任務上達到最佳性能，可能需要在特定領域的數據上進行微調。
部署和微調這些模型，尤其是較大的變體，可能需要一定的計算資源。

📄 許可證

本模型採用CC BY-NC-SA 4.0許可證。

📖 引用

如果您在工作中使用了這些預訓練模型，請引用以下內容：

@INPROCEEDINGS{ARCH,
  author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
  booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)}, 
  title={Benchmarking Representations for Speech, Music, and Acoustic Events}, 
  year={2024},
  pages={505-509},
  keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
  doi={10.1109/ICASSPW62465.2024.10625960}
}

arXiv版本：arxiv.org/abs/2405.00934