DPRNNTasNet-ks16_WHAM_sepcleanオープンソースオーディオ分離モデル - 混合オーディオからクリーンな音声信号を分離する

ホーム

Dprnntasnet Ks16 WHAM Sepclean

julien-cによって開発

これはAsteroidフレームワークでトレーニングされた音源分離モデルで、混合音声からクリーンな音声信号を分離するために特別に設計されています。

音声分離

PyTorch

#音源分離 #低サンプリングレート処理 #デュアルチャネル分離

ダウンロード数 66

リリース時間 : 3/2/2022

モデル概要

このモデルはDPRNNTasNetアーキテクチャを使用し、WHAM!データセットのsep_cleanタスクでトレーニングされており、混合音声から音声信号を効果的に分離できます。

モデル特徴

効率的な音源分離

DPRNNアーキテクチャを採用し、混合音声からクリーンな音声信号を効率的に分離できます。

小さなカーネルサイズ

小さなカーネルサイズ（16）を使用しており、より細かい音声特徴を捉えるのに役立ちます。

高い分離品質

WHAM!データセットで優れた性能を発揮し、SI-SDRの改善は18.23 dBに達します。

モデル能力

音源分離

音声信号抽出

混合音声処理

使用事例

音声処理

音声強調

騒がしい環境からクリアな音声信号を抽出

SI-SDR改善18.23 dB

会議記録

複数人が同時に話している音声信号を分離

🚀 Asteroidモデル `mpariente/DPRNNTasNet(ks=16)_WHAM!_sepclean`

♻️ https://zenodo.org/record/3903795#.X8pMBRNKjUI からインポートされました。

このモデルは、Manuel ParienteによってAsteroidのwham/DPRNNレシピを使用してトレーニングされました。WHAM!データセットのsep_cleanタスクでトレーニングされました。

🚀 クイックスタート

このモデルは、音声ソース分離のために設計されており、Asteroidフレームワークを使用してトレーニングされました。以下のセクションでは、このモデルの使用方法とトレーニング設定について説明します。

✨ 主な機能

WHAM!データセットのsep_cleanタスクでトレーニングされた音声ソース分離モデル。
Asteroidフレームワークを使用して開発されている。

📦 インストール

インストールに関する具体的な手順は提供されていません。

💻 使用例

基本的な使用法

# coming soon

高度な使用法

# 高度な使用法に関する説明はまだ提供されていません。

📚 ドキュメント

トレーニング設定

プロパティ	詳細
データ設定	モード: min、サンプルレート: 8000、セグメント: 2.0、タスク: sep_clean など
フィルタバンク設定	カーネルサイズ: 16、フィルタ数: 64、ストライド: 8
マスクネットワーク設定	双方向: True、隠れ層サイズ: 128 など
オプティマイザ設定	学習率: 0.001、オプティマイザ: adam、重み減衰: 1e-05
トレーニング設定	バッチサイズ: 6、エポック数: 200 など

結果

指標	値
`si_sdr`	18.227683982688003
`si_sdr_imp`	18.22883576588251
`sdr`	18.617789605060587
`sdr_imp`	18.466745426438173
`sir`	29.22773720052717
`sir_imp`	29.07669302190474
`sar`	19.116352171914485
`sar_imp`	-130.06009796503054
`stoi`	0.9722025377865715
`stoi_imp`	0.23415680987800583

Asteroidの引用

@inproceedings{Pariente2020Asteroid,
    title={Asteroid: the {PyTorch}-based audio source separation toolkit for researchers},
    author={Manuel Pariente and Samuele Cornell and Joris Cosentino and Sunit Sivasankaran and
            Efthymios Tzinis and Jens Heitkaemper and Michel Olvera and Fabian-Robert Stöter and
            Mathieu Hu and Juan M. Martín-Doñas and David Ditter and Ariel Frank and Antoine Deleforge
            and Emmanuel Vincent},
    year={2020},
    booktitle={Proc. Interspeech},
}

またはarXivでの引用:

@misc{pariente2020asteroid,
      title={Asteroid: the PyTorch-based audio source separation toolkit for researchers}, 
      author={Manuel Pariente and Samuele Cornell and Joris Cosentino and Sunit Sivasankaran and Efthymios Tzinis and Jens Heitkaemper and Michel Olvera and Fabian-Robert Stöter and Mathieu Hu and Juan M. Martín-Doñas and David Ditter and Ariel Frank and Antoine Deleforge and Emmanuel Vincent},
      year={2020},
      eprint={2005.04132},
      archivePrefix={arXiv},
      primaryClass={eess.AS}
}