sepformer - wsj03mixオープンソース音声分離モデル - 無料でデプロイし、混合音声の独立分離を実現

ホーム

Sepformer Wsj03mix

speechbrainによって開発

これはSepFormerアーキテクチャを使用してオーディオソース分離を行うモデルで、WSJ0 - 3Mixデータセットで訓練され、混合音声を独立した音声源に分離することができます。

音声分離英語オープンソースライセンス:Apache-2.0 #多話者分離 #高SI - SNRi #8kHzオーディオ処理

ダウンロード数 158

リリース時間 : 3/2/2022

モデル概要

このモデルはTransformerアーキテクチャのSepFormerを基に実装され、オーディオソース分離タスクに特化しており、混合オーディオから複数の独立した音声信号を分離することができます。

モデル特徴

高性能分離

WSJ0 - 3Mixテストセットで19.8 dBのSI - SNRiと20.0 dBのSDRiの分離性能を達成します。

Transformerアーキテクチャベース

先進的なSepFormerアーキテクチャを採用し、注意力機構を利用して効率的な音声分離を実現します。

即時使用可能なモデル

簡単に使えるインターフェースを提供し、オーディオファイルを直接分離処理することができます。

モデル能力

音声分離

多話者分離

オーディオソース分離

使用事例

音声処理

会議録音分離

複数人が同時に話す会議録音から各話者の独立した音声を分離します。

3人の同時話者の音声源を明確に分離できます。

オーディオ強化

ノイズの多い混合オーディオから目標音声信号を抽出します。

音声の明瞭度と理解度を向上させます。

🚀 WSJ0 - 3Mixデータセットで訓練されたSepFormerモデル

このリポジトリは、SepFormer モデルを使用した音声ソース分離に必要なすべてのツールを提供します。このモデルはSpeechBrainを使用して実装され、WSJ0 - 3Mixデータセットで事前学習されています。より良い使用体験を得るために、SpeechBrain をさらに学ぶことをおすすめします。このモデルのWSJ0 - 3MixデータセットのテストセットにおけるSI - SNRi指標は19.8 dBです。

バージョン公開日	テストセットSI - SNRi	テストセットSDRi
2021年3月9日	19.8dB	20.0dB

🚀 クイックスタート

SpeechBrainのインストール

まず、以下のコマンドを使用してSpeechBrainをインストールしてください。

pip install speechbrain

SpeechBrain についてさらに学ぶために、関連するチュートリアルを読むことをおすすめします。

独自の音声ファイルでソース分離を行う

from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio

model = separator.from_hparams(source="speechbrain/sepformer-wsj03mix", savedir='pretrained_models/sepformer-wsj03mix')

est_sources = model.separate_file(path='speechbrain/sepformer-wsj03mix/test_mixture_3spks.wav') 

torchaudio.save("source1hat.wav", est_sources[:, :, 0].detach().cpu(), 8000)
torchaudio.save("source2hat.wav", est_sources[:, :, 1].detach().cpu(), 8000)
torchaudio.save("source3hat.wav", est_sources[:, :, 2].detach().cpu(), 8000)

このシステムは、入力される録音のサンプリングレートが8kHz（モノラル）であることを想定しています。サンプリングレートが異なる信号を使用する場合は、インターフェースを使用する前にリサンプリングを行ってください（例えば、torchaudioまたはsoxを使用）。

GPUで推論を行う

GPUで推論を行う場合は、from_hparams メソッドを呼び出す際に run_opts={"device":"cuda"} を追加してください。

訓練

このモデルはSpeechBrain（fc2eabb7）を使用して訓練されています。最初から訓練を行う場合は、以下の手順に従ってください。

SpeechBrainリポジトリをクローンします。

git clone https://github.com/speechbrain/speechbrain/

依存関係をインストールします。

cd speechbrain
pip install -r requirements.txt
pip install -e .

訓練スクリプトを実行します。

cd  recipes/WSJ0Mix/separation
python train.py hparams/sepformer.yaml --data_folder=your_data_folder

注意：yamlファイルの num_spks を3に変更してください。

訓練結果（モデル、ログなど）はこちらで見ることができます。

制限事項

SpeechBrainチームは、このモデルが他のデータセットでの性能を保証するものではありません。

📚 ドキュメント

SpeechBrainの引用

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}

SepFormerの引用

@inproceedings{subakan2021attention,
      title={Attention is All You Need in Speech Separation}, 
      author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
      year={2021},
      booktitle={ICASSP 2021}
}