TIGER-DnR開源輕量級語音分離模型 - 高效實現音頻清晰處理與分離

首頁

TIGER DnR

由JusperLee開發

TIGER是一款輕量級語音分離模型，通過頻帶分割和多尺度特徵提取實現高效音頻處理

聲音分離

Safetensors

英語開源協議:Apache-2.0 #輕量級語音分離 #多尺度頻帶建模 #低參數高效

下載量 134

發布時間 : 1/22/2025

模型概述

TIGER是一種高效的語音分離模型，採用頻帶分割和交錯建模結構，在保持高性能的同時大幅降低計算成本。主要用於語音分離、降噪和混響消除任務。

模型特點

高效頻帶分割

通過先驗知識劃分頻帶並對頻率信息進行壓縮，顯著降低計算成本

多尺度特徵提取

採用多尺度選擇性注意力(MSA)模塊有效提取上下文特徵

輕量級設計

參數數量減少94.3%，MACs降低95.3%，同時保持高性能

真實場景適應

在包含複雜噪聲和混響的EchoSet數據集上表現優異

模型能力

語音分離

背景噪聲消除

混響消除

多說話人語音分離

使用案例

語音增強

會議錄音增強

從多人同時說話的錄音中分離出清晰的單人語音

在EchoSet數據集上優於TF-GridNet模型

嘈雜環境語音處理

消除背景噪聲和混響，提高語音清晰度

有效處理包含物體遮擋和材料特性影響的真實混響

音頻後期製作

影視音頻修復

從現場錄音中分離和增強目標語音

🚀 Apollo：用於高質量音頻恢復的頻段序列建模

Apollo是一個用於語音分離的輕量級模型，它通過頻段分割、多尺度和全頻幀建模，有效提取關鍵聲學特徵。

🚀 快速開始

使用預訓練模型進行測試

# 使用語音進行測試
python inference_speech.py --audio_path test/mix.wav

# 使用DnR進行測試
python inference_dnr.py --audio_path test/test_mixture_466.wav

使用EchoSet進行訓練

python audio_train.py --conf_dir configs/tiger.yml

使用EchoSet進行評估

python audio_test.py --conf_dir configs/tiger.yml

✨ 主要特性

輕量級設計：TIGER是一個輕量級的語音分離模型，通過頻段分割、多尺度和全頻幀建模，有效提取關鍵聲學特徵。
參數和計算成本顯著降低：提出的語音分離模型TIGER顯著減少了參數數量和計算成本。
多模塊協同：採用多尺度選擇性注意力（MSA）模塊提取上下文特徵，引入全頻幀注意力（F^3A）模塊捕獲時域和頻域上下文信息。
新數據集：引入了名為EchoSet的新數據集，用於更真實地評估語音分離模型在複雜聲學環境中的性能。
性能優越：在EchoSet數據集上，TIGER在推理速度和分離質量上顯著優於SOTA模型TF - GridNet，同時參數數量減少了94.3%，MACs減少了95.3%。

📚 詳細文檔

📜 摘要

在本文中，我們提出了一種語音分離模型：時頻交織增益提取與重建網絡（TIGER），該模型顯著減少了參數數量和計算成本。TIGER利用先驗知識劃分頻段，並對頻率信息進行壓縮。我們採用多尺度選擇性注意力（MSA）模塊提取上下文特徵，同時引入全頻幀注意力（F^3A）模塊捕獲時域和頻域上下文信息。此外，為了更真實地評估語音分離模型在複雜聲學環境中的性能，我們引入了一個名為EchoSet的新數據集。該數據集包含噪聲和更真實的混響（例如，考慮物體遮擋和材料特性），兩個說話者的語音以隨機比例重疊。實驗結果表明，在EchoSet數據集上，TIGER在推理速度和分離質量上顯著優於最先進（SOTA）的模型TF - GridNet，同時參數數量減少了94.3%，MACs減少了95.3%。這些結果表明，通過利用頻段分割和交織建模結構，TIGER在保持高性能的同時大幅減少了參數和計算成本。值得注意的是，TIGER是第一個參數少於100萬且性能接近SOTA模型的語音分離模型。

💥 最新消息

[2025-01-23] 我們發佈了TIGER的代碼和預訓練模型！🚀
[2025-01-23] 我們發佈了TIGER模型和EchoSet數據集！🚀

📖 引用

@article{xu2024tiger,
  title={TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation},
  author={Xu, Mohan and Li, Kai and Chen, Guo and Hu, Xiaolin},
  journal={arXiv preprint arXiv:2410.01469},
  year={2024}
}