ConvTasNet_Libri2Mix_sepclean_16kオープンソースモデル - 無料でデプロイして効率的な音声分離を実現

ホーム

Convtasnet Libri2Mix Sepclean 16k

JorisCosによって開発

これはAsteroidフレームワークを基に訓練されたConvTasNetモデルで、オーディオ分離タスクに特化しており、Libri2Mixデータセットのsep_cleanタスクで訓練されています。

音声分離

PyTorch

#音声分離 #高忠実度オーディオ #ConvTasNetアーキテクチャ

ダウンロード数 13.38k

リリース時間 : 3/2/2022

モデル概要

このモデルは主に混合オーディオからクリーンな音声信号を分離するために使用され、音声強化やオーディオ処理のシーンに適しています。

モデル特徴

効率的なオーディオ分離

ConvTasNetアーキテクチャを使用して高品質の音声分離を実現

最適化された訓練設定

精心設計されたフィルタバンクとマスクネットワークの設定を採用し、分離効果を向上させる

良好な性能指標

Libri2Mixテストセットで優れた性能を発揮し、SI - SDRが15.24dBに達する

モデル能力

音声分離

オーディオ強化

多話者分離

使用事例

音声処理

会議録音分離

複数人の会議録音から個々の話者の音声を分離する

SI - SDRが15.24dB向上

音声強化

背景ノイズから明瞭な音声を抽出する

STOIが0.226向上

🚀 Asteroidモデル `JorisCos/ConvTasNet_Libri2Mix_sepclean_16k`

このモデルは、音声分離タスクに特化したAsteroidモデルです。Joris Cosentino氏によってAsteroidのlibrimixレシピを用いて訓練され、Libri2Mixデータセットのsep_cleanタスクに対して最適化されています。

🚀 クイックスタート

このモデルは、音声分離のタスクに使用できます。以下に訓練設定や結果について詳細を説明します。

📦 インストール

このセクションでは具体的なインストール手順が提供されていないため、省略します。

💻 使用例

このセクションでは具体的なコード例が提供されていないため、省略します。

📚 ドキュメント

訓練設定

data:
    n_src: 2
    sample_rate: 16000
    segment: 3
    task: sep_clean
    train_dir: data/wav16k/min/train-360
    valid_dir: data/wav16k/min/dev
filterbank:
    kernel_size: 32
    n_filters: 512
    stride: 16
masknet:
    bn_chan: 128
    hid_chan: 512
    mask_act: relu
    n_blocks: 8
    n_repeats: 3
    skip_chan: 128
optim:
    lr: 0.001
    optimizer: adam
    weight_decay: 0.0
training:
    batch_size: 6
    early_stop: true
    epochs: 200
    half_lr: true
    num_workers: 4

結果

Libri2Mixの最小テストセットにおける結果は以下の通りです。

si_sdr: 15.243671356901526
si_sdr_imp: 15.243034178473609
sdr: 15.668108919568112
sdr_imp: 15.578229918028036
sir: 25.295100756629957
sir_imp: 25.205219921301754
sar: 16.307682590197313
sar_imp: -51.64989963759405
stoi: 0.9394951175291422
stoi_imp: 0.22640192740016568

ライセンス情報

この作品「ConvTasNet_Libri2Mix_sepclean_16k」は、Vassil Panayotov氏によるLibriSpeech ASR corpusの派生作品であり、CC BY 4.0の下で使用されています。「ConvTasNet_Libri2Mix_sepclean_16k」は、Cosentino Joris氏によってAttribution-ShareAlike 3.0 Unportedの下でライセンスされています。