DPRNNTasNet-ks2_WHAM_sepcleanオープンソース音声分離モデル - きれいな音声分離を高精度で実現

Home

Dprnntasnet Ks2 WHAM Sepclean

Developed by mpariente

Asteroidフレームワークでトレーニングされた音声分離モデルで、WHAM!データセットを使用しており、クリーンな音声分離タスクに特化しています。

音声分離

PyTorch

#音声分離 #デュアルチャンネル音声処理 #高忠実度再構築

Downloads 512

Release Time : 3/2/2022

Model Overview

このモデルはDPRNNアーキテクチャを採用し、混合音声からクリーンな音声信号を分離するために特別に設計されており、音声強調や分離タスクに適しています。

Model Features

効率的な音声分離

DPRNNアーキテクチャを採用し、長いシーケンスの音声信号を効果的に処理し、高品質な音声分離を実現します。

低サンプリングレート対応

8000Hzのサンプリングレートの音声入力をサポートし、さまざまな音声処理シナリオに適用可能です。

軽量設計

カーネルサイズ2、フィルタ数64の軽量設計で、性能と計算効率のバランスを取っています。

Model Capabilities

音声分離

音声強調

複数話者分離

Use Cases

音声処理

会議録音分離

複数人の会議録音から単一話者のクリアな音声を分離

SI-SDR 19.32dB向上

音声強調

ノイズを含む録音からクリアな音声を抽出

STOI 0.24向上

🚀 Asteroidモデル `mpariente/DPRNNTasNet-ks2_WHAM_sepclean`

このモデルは、音声分離タスクに特化したもので、Asteroidフレームワークを用いて学習されました。WHAM!データセットのsep_cleanタスクに対して高い性能を発揮します。

🚀 クイックスタート

このモデルはZenodoからインポートされました。

✨ 主な機能

このモデルはManuel Parienteによって、Asteroidのwham/DPRNNレシピを使用して学習されました。
WHAM!データセットのsep_cleanタスクで学習されています。

📚 ドキュメント

学習設定

data:
    mode: min
    nondefault_nsrc: None
    sample_rate: 8000
    segment: 2.0
    task: sep_clean
    train_dir: data/wav8k/min/tr
    valid_dir: data/wav8k/min/cv
filterbank:
    kernel_size: 2
    n_filters: 64
    stride: 1
main_args:
    exp_dir: exp/train_dprnn_new/
    gpus: -1
    help: None
masknet:
    bidirectional: True
    bn_chan: 128
    chunk_size: 250
    dropout: 0
    hid_size: 128
    hop_size: 125
    in_chan: 64
    mask_act: sigmoid
    n_repeats: 6
    n_src: 2
    out_chan: 64
optim:
    lr: 0.001
    optimizer: adam
    weight_decay: 1e-05
positional arguments:
training:
    batch_size: 3
    early_stop: True
    epochs: 200
    gradient_clipping: 5
    half_lr: True
    num_workers: 8

結果

si_sdr: 19.316743490695334
si_sdr_imp: 19.317895273889842
sdr: 19.68085347190952
sdr_imp: 19.5298092932871
sir: 30.362213998701232
sir_imp: 30.21116982007881
sar: 20.15553251343315
sar_imp: -129.02091762351188
stoi: 0.97772664309074
stoi_imp: 0.23968091518217424

📄 ライセンス

この作品「DPRNNTasNet-ks2_WHAM_sepclean」は、LDCによるCSR-I (WSJ0) Completeの派生作品です。LDC Non-Members用ユーザー契約（研究目的のみ）の下で使用されています。「DPRNNTasNet-ks2_WHAM_sepclean」は、Manuel ParienteによってAttribution-ShareAlike 3.0 Unportedの下でライセンスされています。