ConvTasNet_Libri3Mix_sepclean_16k Open-source Model - Free Implementation of 16kHz Audio Voice Separation

Convtasnet Libri3Mix Sepclean 16k

Developed by JorisCos

A ConvTasNet model trained on the Asteroid framework for speech separation tasks, trained on the Libri3Mix dataset, supporting 16kHz sample rate audio input.

Sound Separation

PyTorch

#Multi-speaker separation #16kHz audio processing #ConvTasNet architecture

Downloads 48

Release Time : 3/2/2022

Model Overview

This model is an audio-to-audio conversion model specifically designed to separate clean speech signals from mixed audio.

Model Features

Efficient speech separation

Effectively separates speech signals of multiple speakers from mixed audio.

Optimized ConvTasNet architecture

Utilizes an optimized ConvTasNet architecture with 8 blocks and 3 repetitions, providing efficient audio processing capabilities.

High-quality separation results

Achieves significant SI-SDR and SDR improvements on the Libri3Mix test set, demonstrating notable separation performance.

Model Capabilities

Multi-speaker speech separation

Audio signal enhancement

16kHz audio processing

Use Cases

Speech processing

Meeting recording enhancement

Separates individual speaker voices from multi-speaker meeting recordings to improve speech recognition accuracy.

SI-SDR improvement of 12.3, SDR improvement of 12.77

Speech signal dereverberation

Extracts clean speech signals from noisy environments to improve speech quality.

STOI improvement of 0.255

🚀 Asteroid model `JorisCos/ConvTasNet_Libri3Mix_sepclean_16k`

This model is designed for audio separation tasks, leveraging the ConvTasNet architecture. It offers high - performance audio - to - audio transformation, trained on specific datasets to achieve accurate results.

🚀 Quick Start

This model was trained by Joris Cosentino using the librimix recipe in Asteroid. It was trained on the sep_clean task of the Libri3Mix dataset.

✨ Features

Trained on Specific Dataset: The model is trained on the sep_clean task of the Libri3Mix dataset, which is suitable for audio separation scenarios.
Configurable Training: The training configuration can be adjusted according to different requirements, including data settings, filter bank parameters, mask network settings, and optimization strategies.

📦 Installation

No specific installation steps are provided in the original document.

💻 Usage Examples

No code examples are provided in the original document.

📚 Documentation

Training Config

data:
    n_src: 3
    sample_rate: 16000
    segment: 3
    task: sep_clean
    train_dir: data/wav16k/min/train-360
    valid_dir: data/wav16k/min/dev
filterbank:
    kernel_size: 32
    n_filters: 512
    stride: 16
masknet:
    bn_chan: 128
    hid_chan: 512
    mask_act: relu
    n_blocks: 8
    n_repeats: 3
    n_src: 3
    skip_chan: 128
optim:
    lr: 0.001
    optimizer: adam
    weight_decay: 0.0
training:
    batch_size: 8
    early_stop: true
    epochs: 200
    half_lr: true
    num_workers: 4

Results

On Libri3Mix min test set:

si_sdr: 8.932601610824145
si_sdr_imp: 12.299341066588594
sdr: 9.557260814240447
sdr_imp: 12.76957128385349
sir: 17.387646884037455
sir_imp: 20.599955591768484
sar: 10.686885056960504
sar_imp: -55.8894643263213
stoi: 0.8481258332025354
stoi_imp: 0.25528367853750356

📄 License

This work "ConvTasNet_Libri3Mix_sepclean_16k" is a derivative of LibriSpeech ASR corpus by Vassil Panayotov, used under CC BY 4.0. "ConvTasNet_Libri3Mix_sepclean_16k" is licensed under [Attribution - ShareAlike 3.0 Unported](https://creativecommons.org/licenses/by - sa/3.0/) by Cosentino Joris.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご