hubert-large-audiosetオープンソースモデル - 一般的な音声表現学習タスクに無料で使用可能

ホーム

Hubert Large Audioset

ALMによって開発

HuBERTアーキテクチャに基づくTransformerモデルで、完全なAudioSetデータセットで事前学習されており、汎用オーディオ表現学習タスクに適しています。

音声分類

Transformers

#汎用オーディオ表現 #自己教師あり学習 #マルチドメインオーディオ処理

ダウンロード数 79

リリース時間 : 8/28/2023

モデル概要

このモデルはHuBERTアーキテクチャに基づいており、多様なAudioSetデータセットで事前学習されており、さまざまなオーディオ処理タスクに適用可能な汎用オーディオ特徴を抽出できます。

モデル特徴

汎用オーディオ表現

多様なAudioSetデータセットで事前学習されており、さまざまなオーディオタイプ（音声、音楽、環境音など）を処理できます

HuBERTアーキテクチャベース

HuBERTの自己教師あり学習方法を採用し、オーディオ信号の時系列特徴を効果的に捕捉します

転移学習に適している

特徴抽出器として使用したり、下流タスクで微調整したりできます

モデル能力

オーディオ特徴抽出

音楽分類

音響イベント検出

音声認識（限定的な能力）

使用事例

音楽分析

音楽ジャンル分類

モデルが抽出した特徴を使用して音楽ジャンルを自動分類

環境音分析

音響イベント検出

環境中の特定の音響イベント（警報音、動物の鳴き声など）を検出

🚀 事前学習済みオーディオ表現モデルのモデルカード

このモデルカードは、ALMによって公開された事前学習済みオーディオ表現モデルに関する情報を提供します。これらのモデルは、全AudioSetデータセットで事前学習されており、汎用的なオーディオ表現学習（ARL）タスクに使用されます。

🚀 クイックスタート

これらの事前学習済みモデルは、音声認識、音楽分類、音響イベント検出などの幅広いARLタスクに使用できます。特徴抽出の強力なツールとして機能し、下流のアプリケーションのために特定のタスクのデータセットで微調整することができます。

✨ 主な機能

全AudioSetデータセットで事前学習された、汎用的なオーディオ表現学習モデル。
音声認識、音楽分類、音響イベント検出などの幅広いタスクに適用可能。
特徴抽出に強力で、特定のタスクのデータセットで微調整可能。

📦 モデル情報

1. ALM/hubert-base-audioset

アーキテクチャ：HuBERT（Hubert-Base）トランスフォーマーベースのモデル
説明：このモデルはHuBERTアーキテクチャに基づいており、全AudioSetデータセットで事前学習されています。

2. ALM/hubert-large-audioset

アーキテクチャ：HuBERT（Hubert-Large）トランスフォーマーベースのモデル
説明：hubert-base-audiosetモデルと同様ですが、サイズが大きく、全AudioSetデータセットからのオーディオ表現を捉える能力が向上しています。

3. ALM/wav2vec2-base-audioset

アーキテクチャ：Wav2Vec 2.0（Wav2Vec2-Base）トランスフォーマーベースのモデル
説明：このモデルはWav2Vec 2.0アーキテクチャに基づいており、SSLとCPCを使用して全AudioSetデータセットで学習されています。HuBERTモデルとは異なるアプローチでオーディオ表現学習を行います。

4. ALM/wav2vec2-large-audioset

アーキテクチャ：Wav2Vec 2.0（Wav2Vec2-Large）トランスフォーマーベースのモデル
説明：wav2vec2-base-audiosetモデルと同様ですが、サイズが大きく、全AudioSetデータセットからのオーディオ表現を学習する能力が向上しています。

📚 ドキュメント

想定される用途

これらの事前学習済みモデルは、音声認識、音楽分類、音響イベント検出などの幅広いARLタスクに使用されることを想定しています。特徴抽出の強力なツールとして機能し、下流のアプリケーションのために特定のタスクのデータセットで微調整することができます。ただし、これらのモデルは様々なオーディオドメインで汎用性を持っていますが、音声関連のタスクでの性能は、元のWav2VecやHuBERTモデルなどの専用モデルと比較して相対的に低い場合があります。これは、事前学習に使用されるAudioSetデータセットが音声以外の幅広いオーディオソースを含む多様な性質を持っているためです。

制限事項と考慮事項

モデルは全AudioSetデータセットで事前学習されているため、すべての可能なオーディオドメインを網羅しているとは限りません。
特定のタスクで最適な性能を達成するために、ドメイン固有のデータでの微調整が必要な場合があります。
これらのモデル、特に大きなバリアントを展開および微調整するには、計算リソースが必要になる場合があります。

📄 ライセンス

このモデルはCC BY-NC-SA 4.0ライセンスの下で提供されています。

🔗 引用

これらの事前学習済みモデルをあなたの研究で使用する場合は、以下を引用してください。

@INPROCEEDINGS{ARCH,
  author={La Quatra, Moreno and Koudounas, Alkis and Vaiani, Lorenzo and Baralis, Elena and Cagliero, Luca and Garza, Paolo and Siniscalchi, Sabato Marco},
  booktitle={2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)}, 
  title={Benchmarking Representations for Speech, Music, and Acoustic Events}, 
  year={2024},
  pages={505-509},
  keywords={Representation learning; Systematics; Conferences; Benchmark testing; Signal processing; Acoustics; Data models; Audio Representation Learning; Benchmark; Pre-trained Models; Self-Supervised Learning},
  doi={10.1109/ICASSPW62465.2024.10625960}
}

arXiv版: arxiv.org/abs/2405.00934