sepformer-whamr-enhancementオープンソース音声強化モデル - ノイズ除去と残響除去で、明瞭な音声を取り戻しましょう！

Home

Sepformer Whamr Enhancement

Developed by speechbrain

このモデルはSepFormerアーキテクチャを通じて音声強化（ノイズ除去 + 残響除去）を実現し、WHAMR!データセット（8kHz）で事前学習され、テストセットのSI - SNRは10.59dBに達します。

オーディオ拡張

PyTorch

EnglishOpen Source License:Apache-2.0 #音声ノイズリダクション #残響除去 #8kHz音声強化

Downloads 570

Release Time : 3/2/2022

Model Overview

Transformerベースの音声強化モデルで、環境ノイズと残響を含む音声信号の処理に特化し、ノイズ除去と残響除去を同時に行うことができます。

Model Features

双タスク処理

音声ノイズ除去と残響除去の2つのタスクを同時に処理できます

Transformerアーキテクチャ

SepFormerアーキテクチャを採用し、注意力機構を利用して効率的な音声分離を実現します

低サンプリング率最適化

8kHzサンプリング周波数の音声信号に特化して最適化されています

Model Capabilities

音声ノイズ除去

音声残響除去

音声品質強化

Use Cases

音声処理

通話品質強化

騒がしい環境下での音声通話の明瞭度を向上させます

SI - SNRが10.59dB向上し、PESQが2.84に達します

会議録音強化

会議室など残響が激しいシーンの録音品質を改善します

🚀 WHAMR!データセットで学習したSepFormer音声強化モデル（8kサンプリングレート）

このリポジトリは、SepFormerモデルを使用して音声強化（ノイズ除去 + 残響除去）を行うために必要なすべてのツールを提供しています。このモデルはSpeechBrainを使用して実装され、WHAMR! 8kサンプリングレートのデータセットで事前学習されています。WHAMR!データセットは、本質的にWSJ0 - Mixデータセットのバージョンで、8kサンプリングレートで環境ノイズと残響が追加されています。より良い体験を得るために、SpeechBrainについてさらに調べることをおすすめします。このモデルのWHAMR!データセットのテストセットでのSI - SNRは10.59 dBです。

🚀 クイックスタート

バージョンリリース日	テストセットSI - SNR	テストセットPESQ
2021年12月1日	10.59	2.84

✨ 主な機能

SepFormerモデルに基づく音声強化機能を提供し、ノイズ除去と残響除去を含みます。
モデルはWHAMR! 8kサンプリングレートのデータセットで事前学習されており、一定の汎化能力を持っています。
カスタムオーディオファイルでの音声強化操作をサポートしています。

📦 インストール

まず、以下のコマンドを使用してSpeechBrainをインストールしてください。

pip install speechbrain

なお、SpeechBrainについてさらに詳しく知るために、チュートリアルを読むことをおすすめします。

💻 使用例

基本的な使用法

独自のオーディオファイルで音声強化を実行するには、次のコードを使用します。

from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio

model = separator.from_hparams(source="speechbrain/sepformer-whamr-enhancement", savedir='pretrained_models/sepformer-whamr-enhancement')

# カスタムファイルの場合は、パスを変更します
est_sources = model.separate_file(path='speechbrain/sepformer-whamr-enhancement/example_whamr.wav') 

torchaudio.save("enhanced_whamr.wav", est_sources[:, :, 0].detach().cpu(), 8000)

高度な使用法

GPUで推論を行うには、from_hparamsメソッドを呼び出す際にrun_opts={"device":"cuda"}を追加します。

📚 ドキュメント

学習

学習スクリプトは現在、進行中のプルリクエストで開発されています。プルリクエストがマージされたら、モデルカードを更新します。学習結果（モデル、ログなど）はこちらで見ることができます。

制限事項

SpeechBrainチームは、このモデルが他のデータセットでの性能を保証するものではありません。

引用

SpeechBrainの引用

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}

SepFormerの引用

@inproceedings{subakan2021attention,
      title={Attention is All You Need in Speech Separation}, 
      author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
      year={2021},
      booktitle={ICASSP 2021}
}