ConvTasNet_Libri3Mix_sepnoisy_16kオープンソースモデル - 混合オーディオ内のノイズと音声信号を無料で分離

ホーム

Convtasnet Libri3Mix Sepnoisy 16k

JorisCosによって開発

Asteroidフレームワークを基に訓練されたConvTasNetモデルで、混合オーディオからノイズと音声信号を分離するために使用されます。

音声分離

PyTorch

#多話者分離 #ノイズ抑制 #16kHzオーディオ処理

ダウンロード数 473

リリース時間 : 3/2/2022

モデル概要

このモデルは、Libri3Mixデータセットを使用してノイズ分離タスクで訓練されており、複数の話者と背景ノイズを含む混合オーディオから明瞭な音声信号を分離することができます。

モデル特徴

効率的なオーディオ分離

ConvTasNetアーキテクチャを使用して、混合オーディオから複数の話者の音声信号を効率的に分離することができます。

ノイズ抑制

背景ノイズを含む混合オーディオに特化して訓練されており、ノイズを効果的に抑制することができます。

高サンプリングレート対応

16kHzのオーディオサンプリングレートをサポートし、高品質のオーディオ処理ニーズに適しています。

モデル能力

オーディオ分離

ノイズ抑制

多話者分離

使用事例

音声強化

会議録音の強化

複数の話者と背景ノイズを含む会議録音から明瞭な音声信号を分離します。

SI - SDRが10.28dB改善、SIRが18.57dB改善

オーディオ後処理

映画やテレビのオーディオ処理

映画やテレビの録音から明瞭な会話信号を分離し、背景ノイズを除去します。

STOIが0.207改善、音声の明瞭度が著しく向上

🚀 アステロイドモデル `JorisCos/ConvTasNet_Libri3Mix_sepnoisy_16k`

このモデルは、音声分離タスクに特化したConvTasNetベースのモデルです。Joris Cosentino氏によってAsteroidのlibrimixレシピを使用して訓練され、Libri3Mixデータセットのsep_noisyタスクに対して最適化されています。

🚀 クイックスタート

このモデルは、音声分離タスクに使用できます。具体的な使用方法については、Asteroidの公式ドキュメントを参照してください。

✨ 主な機能

Joris Cosentino氏によって訓練されたConvTasNetモデルです。
Libri3Mixデータセットのsep_noisyタスクに対して訓練されています。
音声分離タスクに適用できます。

📚 ドキュメント

モデルの説明

このモデルは、Joris Cosentino氏がAsteroidのlibrimixレシピを使用して訓練しました。Libri3Mixデータセットのsep_noisyタスクに対して訓練されています。

訓練設定

data:
  n_src: 3
  sample_rate: 16000
  segment: 3
  task: sep_noisy
  train_dir: data/wav16k/min/train-360
  valid_dir: data/wav16k/min/dev
filterbank:
  kernel_size: 32
  n_filters: 512
  stride: 16
masknet:
  bn_chan: 128
  hid_chan: 512
  mask_act: relu
  n_blocks: 8
  n_repeats: 3
  n_src: 3
  skip_chan: 128
optim:
  lr: 0.001
  optimizer: adam
  weight_decay: 0.0
training:
  batch_size: 8
  early_stop: true
  epochs: 200
  half_lr: true
  num_workers: 4

結果

Libri3Mix minテストセットでの結果は以下の通りです。

si_sdr: 5.926151147554517
si_sdr_imp: 10.282912158535625
sdr: 6.700975236867358
sdr_imp: 10.882972447337504
sir: 15.364110064569388
sir_imp: 18.574476587171688
sar: 7.918866830474568
sar_imp: -0.9638973409971135
stoi: 0.7713777027310713
stoi_imp: 0.2078696167973911

📄 ライセンス

この作品「ConvTasNet_Libri3Mix_sepnoisy_16k」は、Vassil PanayotovによるLibriSpeech ASR corpus（CC BY 4.0の下で使用）と、Whisper.aiによるThe WSJ0 Hipster Ambient Mixturesデータセット（CC BY - NC 4.0の下で使用）の派生作品です。「ConvTasNet_Libri3Mix_sepnoisy_16k」は、Joris CosentinoによってAttribution - ShareAlike 3.0 Unportedの下でライセンスされています。