🚀 預訓練音頻表徵模型:AudioSet上的模型卡
本模型卡介紹了由ALM發佈的預訓練音頻表徵模型的相關信息。這些模型在完整的AudioSet數據集上進行了預訓練,適用於通用的音頻表徵學習(ARL)任務。
📚 模型介紹
- 架構:基於HuBERT(Hubert-Base)的Transformer模型
- 描述:該模型基於HuBERT架構,在完整的AudioSet數據集上進行了預訓練。
- 架構:基於HuBERT(Hubert-Large)的Transformer模型
- 描述:與hubert-base-audioset模型類似,但規模更大,能夠從完整的AudioSet數據集中捕獲更多的音頻表徵信息。
- 架構:基於Wav2Vec 2.0(Wav2Vec2-Base)的Transformer模型
- 描述:該模型基於Wav2Vec 2.0架構,使用帶有對比預測編碼(CPC)的自監督學習(SSL)方法在完整的AudioSet數據集上進行訓練。與HuBERT模型相比,它提供了一種不同的音頻表徵學習方法。
- 架構:基於Wav2Vec 2.0(Wav2Vec2-Large)的Transformer模型
- 描述:與wav2vec2-base-audioset模型類似,但規模更大,能夠從完整的AudioSet數據集中學習到更豐富的音頻表徵信息。
🎯 預期用途
這些預訓練模型適用於廣泛的音頻表徵學習任務,包括但不限於語音識別、音樂分類和聲學事件檢測。它們是強大的特徵提取工具,可在特定任務的數據集上進行微調,以用於下游應用。
需要注意的是,雖然這些模型在各種音頻領域具有通用性,但在語音相關任務中的表現可能相對低於專門的模型,如原始的Wav2Vec和HuBERT模型。這是因為用於預訓練的AudioSet數據集具有多樣性,包含了除語音之外的廣泛音頻來源。
⚠️ 侷限性和注意事項
- 這些模型在完整的AudioSet數據集上進行預訓練,可能無法全面覆蓋所有可能的音頻領域。
- 為了在某些任務上達到最佳性能,可能需要在特定領域的數據上進行微調。
- 部署和微調這些模型,尤其是較大的變體,可能需要一定的計算資源。
📄 許可證
本模型採用CC BY-NC-SA 4.0許可證。
📖 引用
如果您在工作中使用了這些預訓練模型,請引用以下內容:
@INPROCEEDINGS{ARCH,
author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)},
title={Benchmarking Representations for Speech, Music, and Acoustic Events},
year={2024},
pages={505-509},
keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
doi={10.1109/ICASSPW62465.2024.10625960}
}
arXiv版本:arxiv.org/abs/2405.00934