dasheng-baseオープンソースオーディオエンコーダー - 音声、音楽、環境音など多分野のオーディオ情報を無料で処理

ホーム

Dasheng Base

mispeechによって開発

大規模汎用音声エンコーダー、自己教師あり学習で訓練され、音声、音楽、環境音など多様な音声情報処理をサポート

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #マルチドメイン音声エンコーディング #自己教師あり事前学習 #12億パラメータの大規模モデル

ダウンロード数 273

リリース時間 : 6/6/2024

モデル概要

大声は大規模な自己教師あり学習タスクで訓練された汎用音声エンコーダーで、音声、音楽、環境音など多様な領域にわたる豊富な音声情報を捉えることを目的としています。

モデル特徴

大規模訓練

訓練データは272,356時間の多様な音声をカバー

マルチドメイン対応

音声、音楽、環境音など様々な音声タイプを処理可能

高性能

HEARベンチマークテストで顕著な性能向上を示し、従来の成果を超越

モデル能力

音声特徴抽出

音声分類

音楽分類

環境音分類

音声埋め込み生成

使用事例

音声処理

音声コマンド認識

音声コマンドを識別するために使用

Speech Commandsタスクで優れた性能

話者識別

異なる話者を識別するために使用

VoxLinguaタスクで優れた性能

音楽分析

音楽分類

音楽ジャンルを分類

音楽分類タスクで優れた性能

環境音分析

環境音分類

環境音を分類

環境音分類タスクで優れた性能

🚀 大声：大規模汎用音声エンコーダ

Dasheng（Deep Audio-Signal Holistic Embeddings）、または「大声」（「素晴らしい音」）は、大規模な自己教師付き学習タスクで学習された汎用音声エンコーダです。Dashengは、音声、音楽、環境音など、様々なドメインの豊富な音声情報を捉えるように設計されています。このモデルは、272,356時間の多様な音声データで学習され、12億個のパラメータを持ち、HEARベンチマークで大幅な性能向上を示しています。Dashengは、CREMA-D、LibriCount、Speech Commands、VoxLinguaなどのタスクで先行研究を上回り、音楽や環境音の分類タスクでも良好な結果を示しています。

オリジナルのリポジトリ: https://github.com/RicherMans/Dasheng

dasheng

🚀 クイックスタート

📦 インストール

pip install git+https://github.com/jimbozhang/hf_transformers_custom_model_dasheng.git

💻 使用例

基本的な使用法

>>> model_name = "mispeech/dasheng-base"

>>> from dasheng_model.feature_extraction_dasheng import DashengFeatureExtractor
>>> from dasheng_model.modeling_dasheng import DashengModel

>>> feature_extractor = DashengFeatureExtractor.from_pretrained(model_name)
>>> model = DashengModel.from_pretrained(model_name, outputdim=None)  # no linear output layer if `outputdim` is `None`

>>> import torchaudio
>>> audio, sampling_rate = torchaudio.load("resources/JeD5V5aaaoI_931_932.wav")
>>> assert sampling_rate == 16000
>>> audio.shape
torch.Size([1, 16000])   # mono audio of 1 second

>>> inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt")
>>> inputs.input_values.shape
torch.Size([1, 64, 101])   # 64 mel-filterbanks, 101 frames

>>> import torch
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> outputs.hidden_states.shape
torch.Size([1, 25, 768])   # 25 T-F patches (patch size 64x4, no overlap), before mean-pooling

>>> outputs.logits.shape
torch.Size([1, 768])   # mean-pooled embedding (would be logits from a linear layer if `outputdim` was set)

高度な使用法

ESC-50データセットで線形ヘッドを学習する方法を示します。

# このコードは、ESC-50データセットでDashengエンコーダを固定して線形ヘッドを学習する例です。
# 詳細はColabノートブックを参照してください。

example_finetune_esc50.ipynb は、Dashengエンコーダを固定してESC-50データセットで線形ヘッドを学習する方法を示しています。

📚 ドキュメント

引用

もしあなたの研究でDashengが役立った場合、以下の論文を引用してください。

@inproceedings{dinkel2023scaling,
  title={Scaling up masked audio encoder learning for general audio classification},
  author={Dinkel, Heinrich and Yan, Zhiyong and Wang, Yongqing and Zhang, Junbo and Wang, Yujun and Wang, Bin},
  booktitle={Interspeech 2024},
  year={2024}
}