TIGER-speechオープンソース音声分離モデル - 無料でデプロイし、重要な音響特徴を効果的に抽出

ホーム

TIGER Speech

JusperLeeによって開発

TIGERは軽量音声分離モデルで、周波数帯域分割、マルチスケールおよび全周波数フレームモデリングにより重要な音響特徴を効果的に抽出します。

音声分離

Safetensors

英語オープンソースライセンス:Apache-2.0 #軽量音声分離 #マルチスケールアテンション #時間周波数インターリーブモデリング

ダウンロード数 1,286

リリース時間 : 1/22/2025

モデル概要

TIGERはパラメータ規模と計算コストを大幅に削減した音声分離モデルで、周波数帯域分割とインターリーブモデリング構造により、高性能を維持しながらパラメータと計算コストを大幅に削減しました。

モデル特徴

軽量設計

パラメータ数が94.3%削減、MACsが95.3%削減され、高性能を維持しています。

周波数帯域分割と圧縮

事前知識を利用して周波数帯域を分割し、周波数情報を圧縮することで効率を向上させます。

マルチスケール選択的アテンション

マルチスケール選択的アテンション（MSA）モジュールを採用し、コンテキスト特徴を抽出します。

全周波数フレームアテンション

全周波数フレームアテンション（F^3A）モジュールを導入し、時間と周波数のコンテキスト情報を捕捉します。

モデル能力

音声分離

高効率計算

マルチスケール特徴抽出

使用事例

音声処理

複雑な音響環境での音声分離

ノイズやより現実的な残響を含む環境で重なり合った音声を分離します。

EchoSetデータセットでの推論速度と分離品質は、TF-GridNetを大幅に上回りました。

🚀 TIGER: 効率的な音声分離のための時間周波数インターリーブゲイン抽出と再構成

TIGERは、周波数帯分割、マルチスケール、全周波数フレームモデリングを通じて、音声分離のために重要な音響特徴を効果的に抽出する軽量モデルです。

🚀 クイックスタート

事前学習モデルでのテスト

# 音声を使用したテスト
python inference_speech.py --audio_path test/mix.wav

# DnRを使用したテスト
python inference_dnr.py --audio_path test/test_mixture_466.wav

EchoSetでの学習

python audio_train.py --conf_dir configs/tiger.yml

EchoSetでの評価

python audio_test.py --conf_dir configs/tiger.yml

✨ 主な機能

TIGERは、音声分離のための軽量モデルで、周波数帯分割とインターリーブモデリング構造を利用することで、パラメータ数と計算コストを大幅に削減しながら、高性能を維持します。また、複雑な音響環境での音声分離モデルの性能をより現実的に評価するために、新しいデータセットEchoSetを導入しています。

📦 インストール

git clone https://github.com/JusperLee/TIGER.git
cd TIGER
pip install -r requirements.txt

📚 ドキュメント

概要

本論文では、パラメータサイズと計算コストを大幅に削減した音声分離モデルであるTime-Frequency Interleaved Gain Extraction and Reconstruction Network (TIGER) を提案します。TIGERは、事前知識を利用して周波数帯を分割し、周波数情報に圧縮を適用します。マルチスケール選択的注意 (MSA) モジュールを採用して文脈特徴を抽出し、全周波数フレーム注意 (F^3A) モジュールを導入して時間的および周波数的文脈情報を捕捉します。さらに、複雑な音響環境での音声分離モデルの性能をより現実的に評価するために、EchoSetと呼ばれる新しいデータセットを導入します。このデータセットには、ノイズとより現実的な残響 (物体の遮蔽や材料特性を考慮) が含まれ、2人の話者の音声がランダムな比率で重なっています。実験結果から、TIGERはEchoSetデータセットで、最先端 (SOTA) モデルのTF-GridNetを推論速度と分離品質の両方で大きく上回り、パラメータ数を94.3%、MACsを95.3%削減しました。これらの結果は、周波数帯分割とインターリーブモデリング構造を利用することで、TIGERが高性能を維持しながらパラメータと計算コストを大幅に削減できることを示しています。特に、TIGERは100万未満のパラメータでSOTAモデルに近い性能を達成した最初の音声分離モデルです。

モデル構造

TIGER Model Architecture

結果

Libri2Mix、LRS2-2Mix、およびEchoSet でのTIGERと他の既存の分離モデルの性能比較。太字は最適な性能を、斜体は準最適な性能を示します。
TIGERと他のモデルの効率比較。
DnRでの映画音声分離モデルの性能と効率の比較。'*' は結果がDnRの元論文から得られたことを意味します。

📄 ライセンス

このプロジェクトは、Apache 2.0ライセンスの下で公開されています。

📋 引用

@article{xu2024tiger,
  title={TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation},
  author={Xu, Mohan and Li, Kai and Chen, Guo and Hu, Xiaolin},
  journal={arXiv preprint arXiv:2410.01469},
  year={2024}
}