ConvTasNet_Libri1Mix_enhsingle_16kオープンソースモデル - 無料でデプロイしてシングルチャンネルの音声強化を実現

ホーム

Convtasnet Libri1Mix Enhsingle 16k

JorisCosによって開発

Asteroidフレームワークを基に訓練されたConvTasNetモデルで、単チャンネル音声強化タスクに使用され、Libri1Mixデータセットで訓練されています。

オーディオ拡張

PyTorch

#単チャンネル音声強化 #高忠実度オーディオ処理 #ConvTasNetアーキテクチャ

ダウンロード数 2,570

リリース時間 : 3/2/2022

モデル概要

このモデルはオーディオからオーディオへの変換モデルで、単チャンネル音声強化タスクに特化しており、ノイズの含まれたオーディオから明瞭な音声信号を抽出することができます。

モデル特徴

効率的な音声強化

ConvTasNetアーキテクチャを採用しており、音声とノイズを効果的に分離し、音声品質を向上させることができます。

軽量設計

モデルのパラメータが最適化されており、リソースが限られたデバイスでも動作しやすいです。

高性能指標

Libri1Mixテストセットで優れた性能を発揮し、SI - SDRが11.29dB向上します。

モデル能力

単チャンネル音声強化

ノイズ抑制

音声の明瞭度向上

使用事例

音声処理

音声通信強化

音声通話の品質を向上させ、背景ノイズの干渉を減らすために使用されます。

SI - SDRが11.29dB向上し、STOIが0.135向上します。

音声認識の前処理

音声認識システムの前端処理モジュールとして、認識精度を向上させます。

🚀 小惑星モデル `JorisCos/ConvTasNet_Libri1Mix_enhsignle_16k`

このモデルは、音声分離や強化に特化したConvTasNetベースのモデルで、Asteroidフレームワークを用いてLibri1Mixデータセットで学習されました。

🚀 クイックスタート

このモデルは、Asteroidのlibrimixレシピを使用してJoris Cosentinoによって学習されました。Libri1Mixデータセットのenh_singleタスクで学習されています。

✨ 主な機能

音声強化タスクに特化したConvTasNetモデル
Libri1Mixデータセットで学習され、高い性能を発揮

📦 インストール

READMEに具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

READMEに具体的なコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

学習設定

data:
  n_src: 1
  sample_rate: 16000
  segment: 3
  task: enh_single
  train_dir: data/wav16k/min/train-360
  valid_dir: data/wav16k/min/dev
filterbank:
  kernel_size: 32
  n_filters: 512
  stride: 16
masknet:
  bn_chan: 128
  hid_chan: 512
  mask_act: relu
  n_blocks: 8
  n_repeats: 3
  n_src: 1
  skip_chan: 128
optim:
  lr: 0.001
  optimizer: adam
  weight_decay: 0.0
training:
  batch_size: 6
  early_stop: true
  epochs: 200
  half_lr: true
  num_workers: 4

結果

Libri1Mixの最小テストセットでの結果は以下の通りです。

si_sdr: 14.743051006476085
si_sdr_imp: 11.293269700616385
sdr: 15.300522933671061
sdr_imp: 11.797860134458015
sir: Infinity
sir_imp: NaN
sar: 15.300522933671061
sar_imp: 11.797860134458015
stoi: 0.9310514162434267
stoi_imp: 0.13513159270288563

🔧 技術詳細

READMEに具体的な技術詳細が50文字以上記載されていないため、このセクションは省略されます。

📄 ライセンス

この作品「ConvTasNet_Libri1Mix_enhsignle_16k」は、Vassil PanayotovによるLibriSpeech ASR corpusの派生作品で、CC BY 4.0の下で使用されています。また、Whisper.aiによるThe WSJ0 Hipster Ambient Mixturesデータセットは、CC BY - NC 4.0（研究用途のみ）の下で使用されています。「ConvTasNet_Libri1Mix_enhsignle_16k」は、Joris CosentinoによってAttribution - ShareAlike 3.0 Unportedの下でライセンスされています。