ConvTasNet_Libri3Mix_sepclean_16kオープンソースモデル - 16kHzオーディオの音声分離を無料で実現

ホーム

Convtasnet Libri3Mix Sepclean 16k

JorisCosによって開発

Asteroidフレームワークを基に訓練されたConvTasNetモデルで、音声分離タスクに使用され、Libri3Mixデータセットで訓練され、16kHzのサンプリングレートのオーディオ入力をサポートします。

音声分離

PyTorch

#多話者分離 #16kHzオーディオ処理 #ConvTasNetアーキテクチャ

ダウンロード数 48

リリース時間 : 3/2/2022

モデル概要

このモデルはオーディオからオーディオへの変換モデルで、混合オーディオからクリーンな音声信号を分離するために特化しています。

モデル特徴

効率的な音声分離

混合オーディオから複数の話者の音声信号を効果的に分離することができます。

最適化されたConvTasNetアーキテクチャ

最適化されたConvTasNetアーキテクチャを採用し、8つのブロックと3回の繰り返しを持ち、効率的なオーディオ処理能力を提供します。

高品質の分離結果

Libri3Mixテストセットで高いSI - SDRとSDRの向上を達成しており、分離効果が顕著です。

モデル能力

多話者音声分離

オーディオ信号強化

16kHzオーディオ処理

使用事例

音声処理

会議記録の強化

複数人が同時に話す会議録音から個々の話者の音声を分離し、音声認識の精度を向上させます。

SI - SDRが12.3向上、SDRが12.77向上

音声信号の残響除去

ノイズの多い環境からクリーンな音声信号を分離し、音声品質を改善します。

STOIが0.255向上

🚀 Asteroidモデル `JorisCos/ConvTasNet_Libri3Mix_sepclean_16k`

このモデルは、音声分離タスクに特化したモデルです。Joris Cosentino氏によってAsteroidのlibrimixレシピを用いて訓練され、Libri3Mixデータセットのsep_cleanタスクに対応しています。

✨ 主な機能

音声分離タスクに対応したConvTasNetベースのモデル。
Libri3Mixデータセットのsep_cleanタスクで訓練されている。

📚 ドキュメント

モデルの説明

このモデルはJoris Cosentino氏によって、Asteroidのlibrimixレシピを用いて訓練されました。訓練データセットはLibri3Mixのsep_cleanタスクです。

訓練設定

data:
    n_src: 3
    sample_rate: 16000
    segment: 3
    task: sep_clean
    train_dir: data/wav16k/min/train-360
    valid_dir: data/wav16k/min/dev
filterbank:
    kernel_size: 32
    n_filters: 512
    stride: 16
masknet:
    bn_chan: 128
    hid_chan: 512
    mask_act: relu
    n_blocks: 8
    n_repeats: 3
    n_src: 3
    skip_chan: 128
optim:
    lr: 0.001
    optimizer: adam
    weight_decay: 0.0
training:
    batch_size: 8
    early_stop: true
    epochs: 200
    half_lr: true
    num_workers: 4

結果

Libri3Mix minテストセットでの結果は以下の通りです。

si_sdr: 8.932601610824145
si_sdr_imp: 12.299341066588594
sdr: 9.557260814240447
sdr_imp: 12.76957128385349
sir: 17.387646884037455
sir_imp: 20.599955591768484
sar: 10.686885056960504
sar_imp: -55.8894643263213
stoi: 0.8481258332025354
stoi_imp: 0.25528367853750356

ライセンス

この作品 "ConvTasNet_Libri3Mix_sepclean_16k" は、Vassil Panayotovによる LibriSpeech ASR corpus の派生作品です。CC BY 4.0 の下で使用されています。"ConvTasNet_Libri3Mix_sepclean_16k" はCosentino Jorisによって Attribution-ShareAlike 3.0 Unported の下でライセンスされています。

情報テーブル

| 属性 | 詳細 |
|------|------|
| モデルタイプ | Asteroidモデル `JorisCos/ConvTasNet_Libri3Mix_sepclean_16k` |
| 訓練データ | Libri3Mixの`sep_clean`タスク |

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご