🚀 事前学習済みAudioSetオーディオ表現モデルのモデルカード
このモデルカードは、ALMが公開した事前学習済みオーディオ表現モデルに関する情報を提供します。これらのモデルは、全AudioSetデータセットで事前学習されており、汎用的なオーディオ表現学習(ARL)タスクに使用されます。
🚀 クイックスタート
これらの事前学習済みモデルは、音声認識、音楽分類、音響イベント検出など、幅広いARLタスクに使用できます。特徴抽出の強力なツールとして機能し、下流のアプリケーションのためにタスク固有のデータセットで微調整することができます。
✨ 主な機能
- 全AudioSetデータセットで事前学習された複数のオーディオ表現モデルを提供します。
- 汎用的なオーディオ表現学習タスクに適用可能です。
- 特徴抽出に使用でき、下流のアプリケーションで微調整可能です。
📚 ドキュメント
モデル
- アーキテクチャ:HuBERT(Hubert-Base)トランスフォーマーベースのモデル
- 説明:このモデルはHuBERTアーキテクチャに基づいており、全AudioSetデータセットで事前学習されています。
- アーキテクチャ:HuBERT(Hubert-Large)トランスフォーマーベースのモデル
- 説明:hubert-base-audiosetモデルと同様ですが、サイズが大きく、全AudioSetデータセットからのオーディオ表現を学習する能力が向上しています。
- アーキテクチャ:Wav2Vec 2.0(Wav2Vec2-Base)トランスフォーマーベースのモデル
- 説明:このモデルはWav2Vec 2.0アーキテクチャに基づいており、SSLとCPCを使用して全AudioSetデータセットで学習されています。HuBERTモデルとは異なるアプローチでオーディオ表現学習を行います。
- アーキテクチャ:Wav2Vec 2.0(Wav2Vec2-Large)トランスフォーマーベースのモデル
- 説明:wav2vec2-base-audiosetモデルと同様ですが、サイズが大きく、全AudioSetデータセットからのオーディオ表現を学習する能力が向上しています。
想定される使用方法
これらの事前学習済みモデルは、音声認識、音楽分類、音響イベント検出など、幅広いARLタスクに使用されることを想定しています。特徴抽出の強力なツールとして機能し、下流のアプリケーションのためにタスク固有のデータセットで微調整することができます。ただし、これらのモデルは様々なオーディオドメインで汎用性を持っていますが、音声関連のタスクでの性能は、元のWav2VecやHuBERTモデルなどの専用モデルと比較して相対的に低い場合があります。これは、事前学習に使用されるAudioSetデータセットの多様性により、音声以外の幅広いオーディオソースが含まれているためです。
制限事項と考慮事項
- モデルは全AudioSetデータセットで事前学習されているため、すべての可能なオーディオドメインを網羅しているとは限りません。
- 特定のタスクで最適な性能を達成するためには、ドメイン固有のデータでの微調整が必要な場合があります。
- これらのモデル、特に大きなバリアントの展開と微調整には、計算リソースが必要になる場合があります。
引用
これらの事前学習済みモデルをあなたの研究で使用する場合は、次の文献を引用してください。
@INPROCEEDINGS{ARCH,
author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)},
title={Benchmarking Representations for Speech, Music, and Acoustic Events},
year={2024},
pages={505-509},
keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
doi={10.1109/ICASSPW62465.2024.10625960}
}
arXiv版: arxiv.org/abs/2405.00934
📄 ライセンス
このモデルはCC BY-NC-SA 4.0ライセンスの下で提供されています。