🚀 預訓練音頻表徵模型卡片:基於AudioSet數據集
本模型卡片介紹了由ALM發佈的預訓練音頻表徵模型。這些模型在完整的AudioSet數據集上進行了預訓練,適用於通用的音頻表徵學習(ARL)任務。
✨ 主要特性
- 基於Transformer架構,包括HuBERT和Wav2Vec 2.0。
- 在完整的AudioSet數據集上進行預訓練,適用於多種音頻表徵學習任務。
- 提供不同大小的模型變體,以滿足不同的計算資源和性能需求。
📚 詳細文檔
模型介紹
- 架構:基於HuBERT(Hubert-Base)的Transformer模型
- 描述:該模型基於HuBERT架構,在完整的AudioSet數據集上進行了預訓練。
- 架構:基於HuBERT(Hubert-Large)的Transformer模型
- 描述:與hubert-base-audioset模型類似,但尺寸更大,能夠從完整的AudioSet數據集中學習到更豐富的音頻表徵。
- 架構:基於Wav2Vec 2.0(Wav2Vec2-Base)的Transformer模型
- 描述:該模型基於Wav2Vec 2.0架構,使用自監督學習(SSL)和對比預測編碼(CPC)在完整的AudioSet數據集上進行訓練。與HuBERT模型相比,它提供了一種不同的音頻表徵學習方法。
- 架構:基於Wav2Vec 2.0(Wav2Vec2-Large)的Transformer模型
- 描述:與wav2vec2-base-audioset模型類似,但尺寸更大,能夠從完整的AudioSet數據集中學習到更強大的音頻表徵。
預期用途
這些預訓練模型適用於廣泛的音頻表徵學習任務,包括但不限於語音識別、音樂分類和聲學事件檢測。它們可以作為強大的特徵提取工具,並可以在特定任務的數據集上進行微調,以用於下游應用。
需要注意的是,雖然這些模型在各種音頻領域具有通用性,但在語音相關任務中的性能可能相對低於專門的模型,如原始的Wav2Vec和HuBERT模型。這是因為用於預訓練的AudioSet數據集具有多樣性,包含了除語音之外的廣泛音頻源。
侷限性和注意事項
- 模型在完整的AudioSet數據集上進行預訓練,可能無法全面覆蓋所有可能的音頻領域。
- 為了在某些任務中實現最佳性能,可能需要在特定領域的數據上進行微調。
- 部署和微調這些模型,尤其是較大的變體,可能需要計算資源。
📄 許可證
本模型採用CC BY-NC-SA 4.0許可證。
🔗 引用
如果您在工作中使用了這些預訓練模型,請引用以下文獻:
@INPROCEEDINGS{ARCH,
author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)},
title={Benchmarking Representations for Speech, Music, and Acoustic Events},
year={2024},
pages={505-509},
keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
doi={10.1109/ICASSPW62465.2024.10625960}
}
arXiv版本:arxiv.org/abs/2405.00934