DPTNet_Libri1Mix_enhsingle_16kオープンソースオーディオ強化モデル

ホーム

Dptnet Libri1Mix Enhsingle 16k

JorisCosによって開発

Asteroidフレームワークを基に訓練されたオーディオ強化モデルで、モノラル音声強化タスクに特化しています。

オーディオ拡張

PyTorch

#モノラル音声強化 #16kHzオーディオ処理 #DPTNetアーキテクチャ

ダウンロード数 4,446

リリース時間 : 3/2/2022

モデル概要

このモデルはDPTNetアーキテクチャを使用し、Libri1Mixデータセットの強化モノラルタスクで訓練され、モノラルオーディオの明瞭度と理解度を向上させることを目的としています。

モデル特徴

効率的なオーディオ処理

16kHzのサンプリングレートと3秒のフラグメント長で訓練され、リアルタイムオーディオ処理シーンに適しています。

深度時周波数変換ネットワーク

DPTNetアーキテクチャを使用し、時周波数変換と深度ニューラルネットワークを組み合わせてオーディオ特徴を学習します。

顕著な性能向上

テストセットでSI - SDRが11.38dB向上し、STOIが0.13向上する顕著な効果を達成しました。

モデル能力

モノラル音声強化

オーディオ品質向上

音声明瞭度改善

使用事例

音声通信

音声通話品質強化

騒がしい環境下での音声通話の明瞭度を向上させます。

SI - SDRが11.38dB向上し、音声の理解度が顕著に改善されます。

オーディオ後処理

録音品質修復

低品質の録音を強化処理します。

STOIが0.93まで向上し、元の明瞭な音声レベルに近づきます。

🚀 小惑星モデル `JorisCos/DPTNet_Libri1Mix_enhsignle_16k`

このモデルは、Asteroid のlibrimixレシピを使用して、Joris Cosentinoによってトレーニングされました。 Libri1Mixデータセットの enh_single タスクでトレーニングされました。

🚀 クイックスタート

このモデルは、音声関連のタスクに使用できます。以下に詳細な情報を示します。

📦 インストール

インストールに関する具体的な手順は原ドキュメントに記載されていないため、このセクションをスキップします。

💻 使用例

使用例に関するコードは原ドキュメントに記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデルの説明

このモデルは、Joris Cosentinoによって Asteroid のlibrimixレシピを用いてトレーニングされました。Libri1Mixデータセットの enh_single タスクでトレーニングされています。

トレーニング設定

data:
  n_src: 1
  sample_rate: 16000
  segment: 3
  task: enh_single
  train_dir: data/wav16k/min/train-360
  valid_dir: data/wav16k/min/dev
filterbank:
  kernel_size: 16
  n_filters: 64
  stride: 8
masknet:
  bidirectional: true
  chunk_size: 100
  dropout: 0
  ff_activation: relu
  ff_hid: 256
  hop_size: 50
  in_chan: 64
  mask_act: sigmoid
  n_repeats: 2
  n_src: 1
  norm_type: gLN
  out_chan: 64
optim:
  lr: 0.001
  optimizer: adam
  weight_decay: 1.0e-05
scheduler:
  d_model: 64
  steps_per_epoch: 10000
training:
  batch_size: 4
  early_stop: true
  epochs: 200
  gradient_clipping: 5
  half_lr: true
  num_workers: 4

結果

Libri1Mix minテストセットでの結果は以下の通りです。

si_sdr: 14.829670037349064
si_sdr_imp: 11.379888731489366
sdr: 15.395712644737149
sdr_imp: 11.893049845524112
sir: Infinity
sir_imp: NaN
sar: 15.395712644737149
sar_imp: 11.893049845524112
stoi: 0.9301948391058859
stoi_imp: 0.13427501556534832

🔧 技術詳細

原ドキュメントに具体的な技術説明が50文字以上記載されていないため、このセクションをスキップします。

📄 ライセンス

この作品 "DPTNet_Libri1Mix_enhsignle_16k" は、Vassil Panayotovによる LibriSpeech ASR corpus の派生作品であり、CC BY 4.0 の下で使用されています。また、Whisper.ai によるThe WSJ0 Hipster Ambient Mixturesデータセットを CC BY - NC 4.0（研究用途のみ）の下で使用しています。"DPTNet_Libri1Mix_enhsignle_16k" は、Joris Cosentinoによって Attribution - ShareAlike 3.0 Unported の下でライセンスされています。