🚀 事前学習済みAudioSet音声表現モデルのモデルカード
このモデルカードでは、ALMが公開した事前学習済みの音声表現モデルに関する情報を提供します。これらのモデルは、完全なAudioSetデータセットで事前学習されており、汎用的な音声表現学習(ARL)タスクに使用されることを目的としています。
🚀 クイックスタート
これらの事前学習済みモデルは、音声認識、音楽分類、音響イベント検出など、幅広いARLタスクに使用できます。特徴抽出の強力なツールとして機能し、下流のアプリケーション用にタスク固有のデータセットで微調整することができます。
✨ 主な機能
- 完全なAudioSetデータセットで事前学習された複数のモデルを提供。
- 汎用的な音声表現学習タスクに適用可能。
- 特徴抽出に役立ち、下流タスクでの微調整が可能。
📚 ドキュメント
モデル
- アーキテクチャ:HuBERT(Hubert-Base)トランスフォーマーベースのモデル
- 説明:このモデルはHuBERTアーキテクチャに基づいており、完全なAudioSetデータセットで事前学習されています。
- アーキテクチャ:HuBERT(Hubert-Large)トランスフォーマーベースのモデル
- 説明:hubert-base-audiosetモデルと同様ですが、このバリアントはサイズが大きく、完全なAudioSetデータセットから音声表現を捉える能力が向上しています。
- アーキテクチャ:Wav2Vec 2.0(Wav2Vec2-Base)トランスフォーマーベースのモデル
- 説明:このモデルはWav2Vec 2.0アーキテクチャに基づいており、SSLとCPCを使用して完全なAudioSetデータセットで学習されています。HuBERTモデルとは異なるアプローチで音声表現学習を行います。
- アーキテクチャ:Wav2Vec 2.0(Wav2Vec2-Large)トランスフォーマーベースのモデル
- 説明:wav2vec2-base-audiosetモデルと同様ですが、このバリアントはサイズが大きく、完全なAudioSetデータセットから音声表現を学習する能力が向上しています。
想定される使用方法
これらの事前学習済みモデルは、音声認識、音楽分類、音響イベント検出など、幅広いARLタスクに使用されることを想定しています。特徴抽出の強力なツールとして機能し、下流のアプリケーション用にタスク固有のデータセットで微調整することができます。ただし、これらのモデルは様々な音声ドメインで汎用性を提供しますが、音声関連のタスクでの性能は、元のWav2VecやHuBERTモデルなどの専用モデルと比較して相対的に低い場合があります。これは、事前学習に使用されるAudioSetデータセットが音声以外の幅広い音声ソースを含む多様な性質を持っているためです。
制限事項と考慮事項
- モデルは完全なAudioSetデータセットで事前学習されていますが、すべての可能な音声ドメインを網羅しているわけではありません。
- 特定のタスクで最適な性能を達成するためには、ドメイン固有のデータでの微調整が必要な場合があります。
- これらのモデル、特に大きなバリアントの展開と微調整には、計算リソースが必要になる場合があります。
引用
これらの事前学習済みモデルをあなたの研究で使用する場合は、以下を引用してください。
@INPROCEEDINGS{ARCH,
author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)},
title={Benchmarking Representations for Speech, Music, and Acoustic Events},
year={2024},
pages={505-509},
keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
doi={10.1109/ICASSPW62465.2024.10625960}
}
arXiv版: arxiv.org/abs/2405.00934
📄 ライセンス
このモデルはCC BY-NC-SA 4.0ライセンスの下で提供されています。