DCUNet_Libri1Mix_enhsingle_16kオープンソース音声強化モデル - 無料でデプロイしてモノラル音声強化をサポート

ホーム

Dcunet Libri1Mix Enhsingle 16k

JorisCosによって開発

Asteroidフレームワークを基に訓練されたオーディオ強化モデルで、モノラル音声強化タスクに特化しています。

オーディオ拡張

PyTorch

#モノラル音声強化 #DCUNetアーキテクチャ #高いSTOI向上

ダウンロード数 69

リリース時間 : 3/2/2022

モデル概要

このモデルはDCUNet - 20アーキテクチャを採用し、Libri1Mixデータセットで訓練され、モノラルオーディオの品質向上に使用され、特に音声強化シーンに適しています。

モデル特徴

高性能音声強化

Libri1Mixテストセットで13.15dBのSI - SDR向上と0.92のSTOIスコアを達成しました。

深度複素U - Netアーキテクチャ

20層のDCUNet構造を採用し、複素スペクトルのオーディオ信号を処理するために特別に設計されています。

固定長処理

パディングモードの固定長オーディオ処理をサポートし、バッチ処理に適しています。

モデル能力

モノラル音声強化

オーディオ品質向上

ノイズ抑制

使用事例

音声処理

通話品質強化

音声通話の音声の明瞭度と理解度を向上させます。

SI - SDRが9.7dB向上、STOIが12.4%向上

音声認識前処理

ASRシステムの前端処理モジュールとして、認識精度を向上させます。

🚀 Asteroidモデル `JorisCos/DCUNet_Libri1Mix_enhsignle_16k`

このモデルは、音声関連のタスクに特化したモデルです。Asteroid のlibrimixレシピを用いてトレーニングされ、Libri1Mixデータセットの enh_single タスクに対応しています。

🚀 クイックスタート

このモデルは、音声の強化タスクに使用できます。具体的な使用方法については、Asteroid の公式ドキュメントを参照してください。

✨ 主な機能

音声強化タスクに特化したモデルです。
Libri1Mixデータセットの enh_single タスクに対応しています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

このREADMEには具体的なコード例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデルの説明

このモデルは、Joris Cosentinoによって Asteroid のlibrimixレシピを用いてトレーニングされました。Libri1Mixデータセットの enh_single タスクに対してトレーニングされています。

トレーニング設定

data:
  n_src: 1
  sample_rate: 16000
  segment: 3
  task: enh_single
  train_dir: data/wav16k/min/train-360
  valid_dir: data/wav16k/min/dev
filterbank:
  stft_n_filters: 1024
  stft_kernel_size: 1024
  stft_stride: 256
masknet:
  architecture: Large-DCUNet-20
  fix_length_mode: pad
  n_src: 1
optim:
  lr: 0.001
  optimizer: adam
  weight_decay: 1.0e-05
training:
  batch_size: 2
  early_stop: true
  epochs: 200
  gradient_clipping: 5
  half_lr: true
  num_workers: 4

結果

Libri1Mix minテストセットでの結果は以下の通りです。

si_sdr: 13.154035391645971
si_sdr_imp: 9.704254085786271
sdr: 13.568058873121435
sdr_imp: 10.065396073908367
sar: 13.568058873121435
sar_imp: 10.065396073908367
stoi: 0.9199373340235417
stoi_imp: 0.12401751048300132

🔧 技術詳細

このモデルは、Large-DCUNet-20 アーキテクチャを使用しています。トレーニングにはAdamオプティマイザを使用し、学習率は0.001に設定されています。また、トレーニングデータのサンプルレートは16000Hzで、セグメント長は3秒に設定されています。

📄 ライセンス

この作品 "DCUNet_Libri1Mix_enhsignle_16k" は、Vassil Panayotovによる LibriSpeech ASR corpus を CC BY 4.0 の下で使用し、Whisper.ai による The WSJ0 Hipster Ambient Mixtures データセットを CC BY-NC 4.0（研究用途のみ）の下で使用しています。"DCUNet_Libri1Mix_enhsignle_16k" は、Joris Cosentinoによって Attribution-ShareAlike 3.0 Unported の下でライセンスされています。