sepformer_rescuespeechオープンソース音声強化モデル - 救援シーンのドイツ語音声に対する効率的なノイズ除去

ホーム

Sepformer Rescuespeech

speechbrainによって開発

これはSepFormerアーキテクチャに基づく音声強化モデルで、救援シーンのドイツ語音声に対してノイズ除去処理を行い、16kHzのサンプリングレートで優れた性能を発揮します。

オーディオ拡張

PyTorch

ドイツ語オープンソースライセンス:Apache-2.0 #救援音声強化 #SepFormerアーキテクチャ #ドイツ語音声処理

ダウンロード数 62

リリース時間 : 6/30/2023

モデル概要

このモデルはSepFormerアーキテクチャを使用して音声強化機能を実現し、まずMicrosoft-DNS 4データセットで事前学習を行い、その後救援音声データセットで微調整を行い、雑音の多い環境での音声品質を効果的に向上させることができます。

モデル特徴

救助シーンの最適化

救助シーンの音声データに特化して微調整を行い、雑音の多い環境での音声強化効果を向上させます

高性能アーキテクチャ

SepFormerアーキテクチャを採用し、Transformerの利点を生かして効率的な音声分離を実現します

多指標最適化

SI-SNR、SI-SDR、PESQなどの複数の音声品質評価指標で顕著な向上が見られます

モデル能力

音声ノイズ除去

音声強化

救助シーンの音声処理

使用事例

緊急救助

救援通信の強化

雑音の多い救援環境で音声通信品質を向上させます

PESQスコアが2.24に向上し、SI-SNRが7.849dB向上します

音声処理

音声品質の改善

低品質の音声に対して強化処理を行います

SI-SDRが8.414dB向上します

🚀 SepFormer を RescueSpeech で音声強化のために学習 (16kサンプリング周波数)

このリポジトリは、SepFormer モデルを使用して音声強化（ノイズ除去）を行うために必要なすべてのツールを提供します。このモデルは SpeechBrain を用いて実装されています。このモデルは、最初に Microsoft-DNS 4 データセットで学習され、その後 RescueSpeech データセット（16kサンプリング周波数）でファインチューニングされました。より良い体験を得るために、SpeechBrain についてもっと学ぶことをおすすめします。以下に RescueSpeech テストセットでのモデルの性能を示します。

リリース	テストセット SI-SNRi	テストセット SI-SDRi	テストセット PESQ
07-01-23	7.849	8.414	2.24

ここで、SI-SNRi と SI-SDRi は SI-SNR と SI-SDR メトリックの改善を示しています。

🚀 クイックスタート

📦 インストール

まずは、以下のコマンドで SpeechBrain をインストールしてください。

pip install speechbrain

SpeechBrain のチュートリアルを読んで、もっと学ぶことをおすすめします。

💻 使用例

基本的な使用法

独自の音声ファイルで音声強化を行うには、以下のコードを使用します。

from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio

model = separator.from_hparams(source="speechbrain/rescuespeech_sepformer", savedir='pretrained_models/rescuespeech_sepformer')

# カスタムファイルの場合は、パスを変更してください
est_sources = model.separate_file(path='speechbrain/rescuespeech_sepformer/example_rescuespeech16k.wav') 

torchaudio.save("enhanced_rescuespeech16k.wav", est_sources[:, :, 0].detach().cpu(), 16000)

高度な使用法

GPU で推論を行うには、from_hparams メソッドを呼び出す際に run_opts={"device":"cuda"} を追加してください。

学習結果（モデル、ログなど）はこちらから確認できます。

📚 詳細ドキュメント

制限事項

このモデルを他のデータセットで使用した場合の性能について、SpeechBrain チームは一切の保証を提供しません。

引用

SpeechBrain の引用

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}

SepFormer の引用

@inproceedings{subakan2021attention,
      title={Attention is All You Need in Speech Separation}, 
      author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
      year={2021},
      booktitle={ICASSP 2021}
}

RescueSpeech の引用

@misc{sagar2023rescuespeech,
    title={RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain},
    author={Sangeet Sagar and Mirco Ravanelli and Bernd Kiefer and Ivana Kruijff Korbayova and Josef van Genabith},
    year={2023},
    eprint={2306.04054},
    archivePrefix={arXiv},
    primaryClass={eess.AS}
}