🚀 预训练音频表征模型卡片:基于AudioSet数据集
本卡片介绍了ALM发布的预训练音频表征模型。这些模型在完整的AudioSet数据集上进行了预训练,适用于通用的音频表征学习(ARL)任务。
✨ 主要特性
- 基于多种Transformer架构,如HuBERT和Wav2Vec 2.0。
- 在完整的AudioSet数据集上预训练,适用于广泛的音频表征学习任务。
- 提供不同规模的模型,以满足不同的计算资源和任务需求。
📚 详细文档
模型介绍
- 架构:基于HuBERT(Hubert-Base)的Transformer模型
- 描述:该模型基于HuBERT架构,在完整的AudioSet数据集上进行了预训练。
- 架构:基于HuBERT(Hubert-Large)的Transformer模型
- 描述:与hubert-base-audioset模型类似,但规模更大,能够从完整的AudioSet数据集中捕获更多的音频表征信息。
- 架构:基于Wav2Vec 2.0(Wav2Vec2-Base)的Transformer模型
- 描述:该模型基于Wav2Vec 2.0架构,使用自监督学习(SSL)和对比预测编码(CPC)在完整的AudioSet数据集上进行训练。与HuBERT模型相比,它提供了一种不同的音频表征学习方法。
- 架构:基于Wav2Vec 2.0(Wav2Vec2-Large)的Transformer模型
- 描述:与wav2vec2-base-audioset模型类似,但规模更大,能够从完整的AudioSet数据集中学习到更丰富的音频表征信息。
预期用途
这些预训练模型适用于广泛的音频表征学习任务,包括但不限于语音识别、音乐分类和声学事件检测。它们可以作为强大的特征提取工具,并可以在特定任务的数据集上进行微调,以用于下游应用。
需要注意的是,虽然这些模型在各种音频领域具有通用性,但在语音相关任务中的性能可能相对低于专门的模型,如原始的Wav2Vec和HuBERT模型。这是因为用于预训练的AudioSet数据集具有多样性,包含了除语音之外的广泛音频来源。
局限性和注意事项
- 模型在完整的AudioSet数据集上进行预训练,可能无法全面覆盖所有可能的音频领域。
- 为了在某些任务上达到最佳性能,可能需要在特定领域的数据上进行微调。
- 部署和微调这些模型,尤其是较大规模的变体,可能需要一定的计算资源。
引用信息
如果您在工作中使用了这些预训练模型,请引用以下文献:
@INPROCEEDINGS{ARCH,
author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)},
title={Benchmarking Representations for Speech, Music, and Acoustic Events},
year={2024},
pages={505-509},
keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
doi={10.1109/ICASSPW62465.2024.10625960}
}
arXiv版本: arxiv.org/abs/2405.00934
📄 许可证
本项目采用CC BY-NC-SA 4.0许可证。