resepformer-wsj02mix開源音頻源分離模型 - 免費助力音頻精準分離

首頁

Resepformer Wsj02mix

由speechbrain開發

這是一個基於RE-SepFormer架構的音頻源分離模型，由SpeechBrain實現並在WSJ0-2Mix數據集上訓練。

聲音分離英語開源協議:Apache-2.0 #語音源分離 #Transformer架構 #低資源消耗

下載量 488

發布時間 : 6/19/2022

模型概述

該模型用於音頻源分離任務，能夠將混合音頻中的不同聲源分離出來。

模型特點

高效分離

採用RE-SepFormer架構，實現了資源高效的音頻源分離

高性能

在WSJ0-2Mix測試集上達到18.6 dB的SI-SNRi性能

易於使用

提供簡單的Python接口，便於集成到現有系統中

模型能力

音頻源分離

語音信號處理

使用案例

音頻處理

語音分離

從混合音頻中分離出不同的說話人聲音

SI-SNRi 18.6 dB, SDRi 18.9 dB

音頻增強

從背景噪聲中提取目標語音信號

🚀 在WSJ0 - 2Mix上訓練的RE - SepFormer

本倉庫提供了使用基於 RE - SepFormer 模型進行音頻源分離所需的所有工具。該模型使用SpeechBrain實現，並在WSJ0 - 2Mix數據集上進行了預訓練。為了獲得更好的體驗，我們建議您進一步瞭解 SpeechBrain。該模型在WSJ0 - 2Mix數據集測試集上的性能為18.6 dB。

版本發佈日期	測試集SI - SNRi	測試集SDRi
22年6月19日	18.6dB	18.9dB

🚀 快速開始

本倉庫提供了使用 RE - SepFormer 模型進行音頻源分離的工具，該模型使用SpeechBrain實現，並在WSJ0 - 2Mix數據集上預訓練。建議您瞭解更多關於 SpeechBrain 的信息。模型在WSJ0 - 2Mix數據集測試集上的性能為18.6 dB。

✨ 主要特性

提供基於RE - SepFormer模型的音頻源分離工具。
模型使用SpeechBrain實現並在WSJ0 - 2Mix數據集上預訓練。
給出了模型在測試集上的性能指標（SI - SNRi和SDRi）。

📦 安裝指南

安裝SpeechBrain

首先，請使用以下命令安裝SpeechBrain：

pip install speechbrain

請注意，我們建議您閱讀我們的教程，進一步瞭解 SpeechBrain。

💻 使用示例

基礎用法

在您自己的音頻文件上進行源分離：

from speechbrain.inference.separation import SepformerSeparation as separator
import torchaudio

model = separator.from_hparams(source="speechbrain/resepformer-wsj02mix", savedir='pretrained_models/resepformer-wsj02mix')

# 對於自定義文件，更改路徑
est_sources = model.separate_file(path='speechbrain/sepformer-wsj02mix/test_mixture.wav') 

torchaudio.save("source1hat.wav", est_sources[:, :, 0].detach().cpu(), 8000)
torchaudio.save("source2hat.wav", est_sources[:, :, 1].detach().cpu(), 8000)

系統期望輸入的錄音採樣率為8kHz（單聲道）。如果您的信號採樣率不同，請在使用該接口之前對其進行重採樣（例如，使用torchaudio或sox）。

高級用法

在GPU上進行推理

要在GPU上進行推理，請在調用 from_hparams 方法時添加 run_opts={"device":"cuda"}。

📚 詳細文檔

訓練

該模型使用SpeechBrain（fc2eabb7）進行訓練。要從頭開始訓練，請按照以下步驟操作：

克隆SpeechBrain：

git clone https://github.com/speechbrain/speechbrain/

安裝它：

cd speechbrain
pip install -r requirements.txt
pip install -e .

運行訓練：

cd  recipes/WSJ0Mix/separation
python train.py hparams/sepformer.yaml --data_folder=your_data_folder

您可以在這裡找到我們的訓練結果（模型、日誌等）。

侷限性

SpeechBrain團隊不保證該模型在其他數據集上的性能。

📄 許可證

本項目採用Apache - 2.0許可證。

🔖 引用信息

引用SpeechBrain

@misc{speechbrain,
  title={{SpeechBrain}: A General-Purpose Speech Toolkit},
  author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
  year={2021},
  eprint={2106.04624},
  archivePrefix={arXiv},
  primaryClass={eess.AS},
  note={arXiv:2106.04624}
}

引用RE - SepFormer

@inproceedings{dellalibera2024resourceefficient,
      title={Resource-Efficient Separation Transformer}, 
      author={Luca Della Libera and Cem Subakan and Mirco Ravanelli and Samuele Cornell and Frédéric Lepoutre and François Grondin},
      year={2024},
      booktitle={ICASSP 2024},
}