hubert-large-audioset開源模型 - 免費用於通用音頻表徵學習任務

Home

Hubert Large Audioset

Developed by ALM

基於HuBERT架構的Transformer模型，在完整AudioSet數據集上進行預訓練，適用於通用音頻表徵學習任務。

音頻分類

Transformers

#通用音頻表徵 #自監督學習 #多領域音頻處理

Downloads 79

Release Time : 8/28/2023

Model Overview

該模型基於HuBERT架構，在多樣化的AudioSet數據集上預訓練，能夠提取通用音頻特徵，適用於多種音頻處理任務。

Model Features

通用音頻表徵

在多樣化的AudioSet數據集上預訓練，能夠處理各種音頻類型（語音、音樂、環境聲等）

基於HuBERT架構

採用HuBERT的自監督學習方法，有效捕捉音頻信號的時序特徵

遷移學習友好

可作為特徵提取器或在下游任務上進行微調

Model Capabilities

音頻特徵提取

音樂分類

聲學事件檢測

語音識別（有限能力）

Use Cases

音樂分析

音樂流派分類

使用模型提取的特徵進行音樂流派自動分類

環境聲音分析

聲學事件檢測

檢測環境中的特定聲音事件（如警報聲、動物叫聲等）

🚀 預訓練音頻表徵模型卡片：基於AudioSet數據集

本模型卡片介紹了由ALM發佈的預訓練音頻表徵模型。這些模型在完整的AudioSet數據集上進行了預訓練，適用於通用的音頻表徵學習（ARL）任務。

✨ 主要特性

基於Transformer架構，包括HuBERT和Wav2Vec 2.0。
在完整的AudioSet數據集上進行預訓練，適用於多種音頻表徵學習任務。
提供不同大小的模型變體，以滿足不同的計算資源和性能需求。

📚 詳細文檔

模型介紹

1. ALM/hubert-base-audioset

架構：基於HuBERT（Hubert-Base）的Transformer模型
描述：該模型基於HuBERT架構，在完整的AudioSet數據集上進行了預訓練。

2. ALM/hubert-large-audioset

架構：基於HuBERT（Hubert-Large）的Transformer模型
描述：與hubert-base-audioset模型類似，但尺寸更大，能夠從完整的AudioSet數據集中學習到更豐富的音頻表徵。

3. ALM/wav2vec2-base-audioset

架構：基於Wav2Vec 2.0（Wav2Vec2-Base）的Transformer模型
描述：該模型基於Wav2Vec 2.0架構，使用自監督學習（SSL）和對比預測編碼（CPC）在完整的AudioSet數據集上進行訓練。與HuBERT模型相比，它提供了一種不同的音頻表徵學習方法。

4. ALM/wav2vec2-large-audioset

架構：基於Wav2Vec 2.0（Wav2Vec2-Large）的Transformer模型
描述：與wav2vec2-base-audioset模型類似，但尺寸更大，能夠從完整的AudioSet數據集中學習到更強大的音頻表徵。

預期用途

這些預訓練模型適用於廣泛的音頻表徵學習任務，包括但不限於語音識別、音樂分類和聲學事件檢測。它們可以作為強大的特徵提取工具，並可以在特定任務的數據集上進行微調，以用於下游應用。

需要注意的是，雖然這些模型在各種音頻領域具有通用性，但在語音相關任務中的性能可能相對低於專門的模型，如原始的Wav2Vec和HuBERT模型。這是因為用於預訓練的AudioSet數據集具有多樣性，包含了除語音之外的廣泛音頻源。

侷限性和注意事項

模型在完整的AudioSet數據集上進行預訓練，可能無法全面覆蓋所有可能的音頻領域。
為了在某些任務中實現最佳性能，可能需要在特定領域的數據上進行微調。
部署和微調這些模型，尤其是較大的變體，可能需要計算資源。

📄 許可證

本模型採用CC BY-NC-SA 4.0許可證。

🔗 引用

如果您在工作中使用了這些預訓練模型，請引用以下文獻：

@INPROCEEDINGS{ARCH,
  author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
  booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)}, 
  title={Benchmarking Representations for Speech, Music, and Acoustic Events}, 
  year={2024},
  pages={505-509},
  keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
  doi={10.1109/ICASSPW62465.2024.10625960}
}

arXiv版本：arxiv.org/abs/2405.00934