sepformer - dns4 - 16kエンハンスメントオープンソース音声強化モデル

ホーム

Sepformer Dns4 16k Enhancement

speechbrainによって開発

これはSepFormerアーキテクチャに基づく音声エンハンスメントモデルで、ノイズ除去タスクに特化しており、マイクロソフトDNS - 4データセットで訓練され、16kHzサンプリング周波数のオーディオ処理をサポートします。

オーディオ拡張

PyTorch

複数言語対応オープンソースライセンス:Apache-2.0 #音声ノイズリダクション #リアルタイムエンハンスメント #多言語対応

ダウンロード数 1,669

リリース時間 : 8/6/2023

モデル概要

このモデルはSepFormerアーキテクチャを使用して音声エンハンスメント機能を実現し、主にオーディオの背景ノイズを除去し、音声品質を向上させます。モデルは1300時間のマイクロソフトDNS 4データセットで訓練され、16kHzサンプリング周波数のオーディオに適しています。

モデル特徴

高性能ノイズ除去

DNS4 2022ベースライン開発セットで優れた性能を発揮し、DNSMOS SIGスコアは2.999、BAKスコアは3.076、OVRLスコアは2.437です。

多言語対応

英語、ドイツ語、ロシア語、フランス語、イタリア語、スペイン語を含む複数の言語をサポートします。

Transformerアーキテクチャベース

先進的なSepFormerアーキテクチャを採用し、Transformerの利点を組み合わせて音声分離とエンハンスメントを行います。

モデル能力

オーディオノイズ除去

音声品質エンハンスメント

背景ノイズ抑制

使用事例

音声通信

VoIP通話エンハンスメント

ネットワーク音声通話の品質を向上させ、背景ノイズの干渉を減らします。

通話の明瞭度を大幅に改善します。

オーディオ後期処理

録音ノイズ除去

現場録音のノイズ除去処理を行い、音声の理解度を向上させます。

録音品質を向上させ、音声をより明瞭にします。

🚀 SepFormerによる音声強化モデル (16kサンプリング周波数)

このリポジトリは、SepFormerモデルを用いて音声強化（ノイズ除去）を行うための必要なツールを提供しています。このモデルはSpeechBrainを用いて実装され、16kサンプリング周波数のMicrosoft-DNS 4データセットの1300時間のデータで学習されています。より良い体験のために、SpeechBrainについてもっと学ぶことをおすすめします。DNS4 2022のベースライン開発セットでのDNSMOSを用いた評価結果は以下の通りです。

言語サポート

英語 (en)
ドイツ語 (de)
ロシア語 (ru)
フランス語 (fr)
イタリア語 (it)
スペイン語 (es)

ライセンス

apache-2.0

データセット

DNS-4

評価指標

SI-SNR
PESQ
SIG
BAK
OVRL

モデル情報

プロパティ	詳細
モデル名	sepformer-dns4-16k-enhancement
タスク	音声強化 (Speech Enhancement)
データセット	DNS-4 (Deep Noise Suppression Challenge 4 – ICASSP 2022)
分割データセット	baseline-dev-set (ドイツ語)
SIG (DNSMOS)	2.999
BAK (DNSMOS)	3.076
OVRL (DNSMOS)	2.437

🚀 クイックスタート

このリポジトリでは、SpeechBrainを用いて実装されたSepFormerモデルを使って音声強化（ノイズ除去）を行うためのツールを提供しています。モデルは、16kサンプリング周波数のMicrosoft-DNS 4データセットの1300時間のデータで学習されています。

✨ 主な機能

SpeechBrainを用いたSepFormerモデルによる音声強化
16kサンプリング周波数のMicrosoft-DNS 4データセットで学習
DNSMOSを用いた評価

📦 インストール

まずは、以下のコマンドでSpeechBrainをインストールしてください。

pip install speechbrain

より良い体験のために、SpeechBrainについてもっと学ぶことをおすすめします。

💻 使用例

基本的な使用法

from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio

model = separator.from_hparams(source="speechbrain/sepformer-dns4-16k-enhancement", savedir='pretrained_models/sepformer-dns4-16k-enhancement')

# カスタムファイルの場合は、パスを変更してください
est_sources = model.separate_file(path='speechbrain/sepformer-dns4-16k-enhancement/example_dns4-16k.wav') 

torchaudio.save("enhanced_dns4-16k.wav", est_sources[:, :, 0].detach().cpu(), 16000)

高度な使用法

GPUで推論を行うには、from_hparamsメソッドを呼び出す際にrun_opts={"device":"cuda"}を追加してください。

学習結果（モデル、ログなど）はこちらから確認できます。

📚 ドキュメント

制限事項

SpeechBrainチームは、このモデルを他のデータセットで使用した場合のパフォーマンスについて、いかなる保証も提供しません。

引用情報

SpeechBrainの引用

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}

SepFormerの引用

@inproceedings{subakan2021attention,
      title={Attention is All You Need in Speech Separation}, 
      author={Cem Subakan and Mirco Ravanelli and Samuele Cornell and Mirko Bronzi and Jianyuan Zhong},
      year={2021},
      booktitle={ICASSP 2021}
}

ICASSP 2022 Deep Noise Suppression Challengeの引用

@inproceedings{dubey2022icassp,
  title={ICASSP 2022 Deep Noise Suppression Challenge},
  author={Dubey, Harishchandra and Gopal, Vishak and Cutler, Ross and Matusevych, Sergiy and Braun, Sebastian and Eskimez, Emre Sefik and Thakker, Manthan and Yoshioka, Takuya and Gamper, Hannes and Aichner, Robert},
  booktitle={ICASSP},
  year={2022}
}