🚀 預訓練音頻表徵模型:AudioSet
本項目提供了由ALM發佈的預訓練音頻表徵模型,這些模型在完整的AudioSet數據集上進行預訓練,可用於通用的音頻表徵學習(ARL)任務。
🚀 快速開始
這些預訓練模型可用於廣泛的音頻表徵學習(ARL)任務,包括但不限於語音識別、音樂分類和聲學事件檢測。它們是強大的特徵提取工具,可在特定任務的數據集上進行微調,以用於下游應用。
✨ 主要特性
- 多種架構支持:涵蓋了HuBERT和Wav2Vec 2.0兩種主流的基於Transformer的架構。
- 不同規模選擇:提供了基礎版本和大型版本的模型,可根據需求選擇不同的模型規模。
- 通用性強:適用於多種音頻相關任務,具有廣泛的應用場景。
📦 模型信息
屬性 |
詳情 |
模型類型 |
基於HuBERT(Hubert-Base)Transformer架構的模型 |
描述 |
該模型基於HuBERT架構,在完整的AudioSet數據集上進行預訓練。 |
屬性 |
詳情 |
模型類型 |
基於HuBERT(Hubert-Large)Transformer架構的模型 |
描述 |
與hubert-base-audioset模型類似,但規模更大,能夠從完整的AudioSet數據集中捕獲更多的音頻表徵。 |
屬性 |
詳情 |
模型類型 |
基於Wav2Vec 2.0(Wav2Vec2-Base)Transformer架構的模型 |
描述 |
該模型基於Wav2Vec 2.0架構,使用帶有CPC的自監督學習(SSL)在完整的AudioSet數據集上進行訓練。與HuBERT模型相比,它提供了一種不同的音頻表徵學習方法。 |
屬性 |
詳情 |
模型類型 |
基於Wav2Vec 2.0(Wav2Vec2-Large)Transformer架構的模型 |
描述 |
與wav2vec2-base-audioset模型類似,但規模更大,能夠從完整的AudioSet數據集中學習到更豐富的音頻表徵。 |
🔧 侷限性與注意事項
⚠️ 重要提示
- 這些模型是在完整的AudioSet數據集上進行預訓練的,可能無法全面覆蓋所有可能的音頻領域。
- 為了在某些任務上達到最佳性能,可能需要在特定領域的數據上進行微調。
- 部署和微調這些模型,特別是大型版本的模型,可能需要一定的計算資源。
💡 使用建議
由於預訓練使用的AudioSet數據集性質多樣,包含了除語音之外的廣泛音頻來源,這些模型在語音相關任務中的性能可能相對低於專門的模型,如原始的Wav2Vec和HuBERT模型。在進行語音相關任務時,可根據實際情況進行權衡和選擇。
📄 許可證
本項目採用CC BY-NC-SA 4.0許可證。
📚 引用信息
如果您在工作中使用了這些預訓練模型,請引用以下內容:
@INPROCEEDINGS{ARCH,
author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)},
title={Benchmarking Representations for Speech, Music, and Acoustic Events},
year={2024},
pages={505-509},
keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
doi={10.1109/ICASSPW62465.2024.10625960}
}
arXiv版本: arxiv.org/abs/2405.00934