DPRNNTasNet-ks16_WHAM_sepclean Open-source Audio Separation Model - Separating Clean Speech Signals from Mixed Audio

Dprnntasnet Ks16 WHAM Sepclean

Developed by julien-c

This is an audio source separation model trained based on the Asteroid framework, specifically designed to extract clean speech signals from mixed audio.

Sound Separation

PyTorch

#Audio source separation #Low sampling rate processing #Dual-channel separation

Downloads 66

Release Time : 3/2/2022

Model Overview

The model utilizes the DPRNNTasNet architecture and is trained on the sep_clean task of the WHAM! dataset, effectively separating speech signals from mixed audio.

Model Features

Efficient audio separation

Adopts the DPRNN architecture to efficiently separate clean speech signals from mixed audio.

Small kernel size

Uses a smaller kernel size (16), aiding in capturing finer audio features.

High separation quality

Performs excellently on the WHAM! dataset, achieving an SI-SDR improvement of 18.23 dB.

Model Capabilities

Audio source separation

Speech signal extraction

Mixed audio processing

Use Cases

Speech processing

Speech enhancement

Extracts clear speech signals from noisy environments

SI-SDR improvement of 18.23 dB

Meeting transcription

Separates audio signals of multiple people speaking simultaneously

🚀 Asteroid model `mpariente/DPRNNTasNet(ks=16)_WHAM!_sepclean`

This is an audio source separation model trained on the WHAM! dataset using the Asteroid framework, which can effectively separate different audio sources.

🚀 Quick Start

This model was trained by Manuel Pariente using the wham/DPRNN recipe in Asteroid. It was trained on the sep_clean task of the WHAM! dataset.

♻️ Imported from https://zenodo.org/record/3903795#.X8pMBRNKjUI

💻 Usage Examples

Basic Usage

# coming soon

📚 Documentation

Training config

Property	Details
data.mode	min
data.nondefault_nsrc	None
data.sample_rate	8000
data.segment	2.0
data.task	sep_clean
data.train_dir	data/wav8k/min/tr
data.valid_dir	data/wav8k/min/cv
filterbank.kernel_size	16
filterbank.n_filters	64
filterbank.stride	8
main_args.exp_dir	exp/train_dprnn_ks16/
main_args.help	None
masknet.bidirectional	True
masknet.bn_chan	128
masknet.chunk_size	100
masknet.dropout	0
masknet.hid_size	128
masknet.hop_size	50
masknet.in_chan	64
masknet.mask_act	sigmoid
masknet.n_repeats	6
masknet.n_src	2
masknet.out_chan	64
optim.lr	0.001
optim.optimizer	adam
optim.weight_decay	1e-05
training.batch_size	6
training.early_stop	True
training.epochs	200
training.gradient_clipping	5
training.half_lr	True
training.num_workers	6

Results

Property	Details
`si_sdr`	18.227683982688003
`si_sdr_imp`	18.22883576588251
`sdr`	18.617789605060587
`sdr_imp`	18.466745426438173
`sir`	29.22773720052717
`sir_imp`	29.07669302190474
`sar`	19.116352171914485
`sar_imp`	-130.06009796503054
`stoi`	0.9722025377865715
`stoi_imp`	0.23415680987800583

Citing Asteroid

@inproceedings{Pariente2020Asteroid,
    title={Asteroid: the {PyTorch}-based audio source separation toolkit for researchers},
    author={Manuel Pariente and Samuele Cornell and Joris Cosentino and Sunit Sivasankaran and
            Efthymios Tzinis and Jens Heitkaemper and Michel Olvera and Fabian-Robert Stöter and
            Mathieu Hu and Juan M. Martín-Doñas and David Ditter and Ariel Frank and Antoine Deleforge
            and Emmanuel Vincent},
    year={2020},
    booktitle={Proc. Interspeech},
}

Or on arXiv:

@misc{pariente2020asteroid,
      title={Asteroid: the PyTorch-based audio source separation toolkit for researchers}, 
      author={Manuel Pariente and Samuele Cornell and Joris Cosentino and Sunit Sivasankaran and Efthymios Tzinis and Jens Heitkaemper and Michel Olvera and Fabian-Robert Stöter and Mathieu Hu and Juan M. Martín-Doñas and David Ditter and Ariel Frank and Antoine Deleforge and Emmanuel Vincent},
      year={2020},
      eprint={2005.04132},
      archivePrefix={arXiv},
      primaryClass={eess.AS}
}

📄 License

This model is released under the cc-by-sa-4.0 license.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご