sepformer-wham16k-enhancementオープンソース音声強化モデル - 効果的にオーディオノイズと残響を除去

Home

Sepformer Wham16k Enhancement

Developed by speechbrain

これはSepFormerアーキテクチャを使用した音声エンハンスメントモデルで、音声のノイズと残響を除去するために特化しており、WHAM!データセットで16kHzのサンプリング周波数で訓練されています。

オーディオ拡張

PyTorch

EnglishOpen Source License:Apache-2.0 #音声ノイズ除去 #16kHzサンプリング #SepFormerアーキテクチャ

Downloads 5,140

Release Time : 6/30/2022

Model Overview

このモデルはTransformerアーキテクチャのSepFormerをベースに実装されており、主に音声エンハンスメントタスクに使用され、音声の環境ノイズと残響効果を効果的に除去することができます。

Model Features

効率的なノイズ除去

音声の環境ノイズと残響効果を効果的に除去することができます。

Transformerアーキテクチャベース

先進的なSepFormerアーキテクチャを採用し、自己注意機構を組み合わせて音声分離を行います。

16kHzの高サンプリングレート

16kHzのサンプリング周波数の音声処理をサポートし、より高品質の音声エンハンスメント効果を提供します。

Model Capabilities

音声ノイズ除去

音声エンハンスメント

残響除去

Use Cases

音声処理

音声エンハンスメント

環境ノイズのある音声の明瞭度を向上させます。

SI - SNRが14.3dBに向上し、PESQが2.20に達します。

会議録音処理

会議録音の背景ノイズと部屋の残響を除去します。

🚀 SepFormerをWHAM!データセットで学習した音声強調モデル (16kサンプリング周波数)

このリポジトリでは、SpeechBrainを用いて実装され、WHAM!データセット（16kサンプリング周波数）で事前学習されたSepFormerモデルを使って音声強調（ノイズ除去）を行うために必要なツールを提供しています。WHAM!データセットは、基本的には8kのWSJ0 - Mixデータセットに環境ノイズと残響を加えたものです。より良い体験を得るために、SpeechBrainについてもっと学ぶことをおすすめします。このモデルは、WHAM!データセットのテストセットで14.3 dB SI - SNRの性能を発揮します。

リリース日	テストセットのSI - SNR	テストセットのPESQ
06 - 30 - 22	13.8	2.20

🚀 クイックスタート

📦 インストール

まずは、以下のコマンドでSpeechBrainをインストールしてください。

pip install speechbrain

当社のチュートリアルを読み、SpeechBrainについてもっと学ぶことをおすすめします。

💻 使用例

基本的な使用法

自分のオーディオファイルで音声強調を行うには、以下のコードを実行します。

from speechbrain.pretrained import SepformerSeparation as separator
import torchaudio

model = separator.from_hparams(source="speechbrain/sepformer-wham16k-enhancement", savedir='pretrained_models/sepformer-wham16k-enhancement')

# カスタムファイルの場合、パスを変更する
est_sources = model.separate_file(path='speechbrain/sepformer-wham16k-enhancement/example_wham16k.wav') 

torchaudio.save("enhanced_wham16k.wav", est_sources[:, :, 0].detach().cpu(), 16000)

高度な使用法

GPUで推論を行うには、from_hparamsメソッドを呼び出す際にrun_opts={"device":"cuda"}を追加します。

🔧 技術詳細

学習スクリプトは現在、進行中のプルリクエストで作業されています。PRがマージされ次第、モデルカードを更新します。学習結果（モデル、ログなど）は[こちら](https://drive.google.com/drive/folders/1bbQvaiN - R79M697NnekA7Rr0jIYtO6e3)で確認できます。

📄 ライセンス

このプロジェクトは、Apache 2.0ライセンスの下で公開されています。

文献引用

SpeechBrainの引用

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}

SepFormerの引用

@inproceedings{subakan2021attention,
      title={Attention is All You Need in Speech Separation}, 
      author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
      year={2021},
      booktitle={ICASSP 2021}
}

@article{subakan2023exploring,
  author={Subakan, Cem and Ravanelli, Mirco and Cornell, Samuele and Grondin, François and Bronzi, Mirko},
  journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing}, 
  title={Exploring Self-Attention Mechanisms for Speech Separation}, 
  year={2023},
  volume={31},
  pages={2169-2180},
}