🚀 预训练音频表征模型:AudioSet
本项目提供了由ALM发布的预训练音频表征模型,这些模型在完整的AudioSet数据集上进行预训练,可用于通用的音频表征学习(ARL)任务。
🚀 快速开始
这些预训练模型可用于广泛的音频表征学习(ARL)任务,包括但不限于语音识别、音乐分类和声学事件检测。它们是强大的特征提取工具,可在特定任务的数据集上进行微调,以用于下游应用。
✨ 主要特性
- 多种架构支持:涵盖了HuBERT和Wav2Vec 2.0两种主流的基于Transformer的架构。
- 不同规模选择:提供了基础版本和大型版本的模型,可根据需求选择不同的模型规模。
- 通用性强:适用于多种音频相关任务,具有广泛的应用场景。
📦 模型信息
属性 |
详情 |
模型类型 |
基于HuBERT(Hubert-Base)Transformer架构的模型 |
描述 |
该模型基于HuBERT架构,在完整的AudioSet数据集上进行预训练。 |
属性 |
详情 |
模型类型 |
基于HuBERT(Hubert-Large)Transformer架构的模型 |
描述 |
与hubert-base-audioset模型类似,但规模更大,能够从完整的AudioSet数据集中捕获更多的音频表征。 |
属性 |
详情 |
模型类型 |
基于Wav2Vec 2.0(Wav2Vec2-Base)Transformer架构的模型 |
描述 |
该模型基于Wav2Vec 2.0架构,使用带有CPC的自监督学习(SSL)在完整的AudioSet数据集上进行训练。与HuBERT模型相比,它提供了一种不同的音频表征学习方法。 |
属性 |
详情 |
模型类型 |
基于Wav2Vec 2.0(Wav2Vec2-Large)Transformer架构的模型 |
描述 |
与wav2vec2-base-audioset模型类似,但规模更大,能够从完整的AudioSet数据集中学习到更丰富的音频表征。 |
🔧 局限性与注意事项
⚠️ 重要提示
- 这些模型是在完整的AudioSet数据集上进行预训练的,可能无法全面覆盖所有可能的音频领域。
- 为了在某些任务上达到最佳性能,可能需要在特定领域的数据上进行微调。
- 部署和微调这些模型,特别是大型版本的模型,可能需要一定的计算资源。
💡 使用建议
由于预训练使用的AudioSet数据集性质多样,包含了除语音之外的广泛音频来源,这些模型在语音相关任务中的性能可能相对低于专门的模型,如原始的Wav2Vec和HuBERT模型。在进行语音相关任务时,可根据实际情况进行权衡和选择。
📄 许可证
本项目采用CC BY-NC-SA 4.0许可证。
📚 引用信息
如果您在工作中使用了这些预训练模型,请引用以下内容:
@INPROCEEDINGS{ARCH,
author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)},
title={Benchmarking Representations for Speech, Music, and Acoustic Events},
year={2024},
pages={505-509},
keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
doi={10.1109/ICASSPW62465.2024.10625960}
}
arXiv版本: arxiv.org/abs/2405.00934