🚀 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap - Ranked Preference Optimization
TangoFluxは、Flow MatchingとClap - Ranked Preference Optimizationを用いた、高速かつ忠実なテキストから音声への生成モデルです。このモデルは、テキストプロンプトと時間埋め込みに基づき、44.1kHzで最大30秒の音声を生成することができます。
🚀 クイックスタート
以下のコマンドを使って、GitHubリポジトリからTangoFluxをインストールします。
pip install git+https://github.com/declare-lab/TangoFlux
モデルは自動的にダウンロードされ、キャッシュに保存されます。その後の実行では、キャッシュから直接モデルが読み込まれます。
generate
関数は、デフォルトで25ステップを使用してフローモデルからサンプリングします。より高品質の音声を生成するには、50ステップを使用することをおすすめします。ただし、実行時間が増えるというコストがあります。
import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio
model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)
Audio(data=audio, rate=44100)
✨ 主な機能
TangoFluxは、FluxTransformerブロック(Diffusion Transformer (DiT) とMultimodal Diffusion Transformer (MMDiT))で構成されています。これらは、テキストプロンプトと時間埋め込みを条件として、44.1kHzで最大30秒の音声を生成します。TangoFluxは、変分オートエンコーダ (VAE) でエンコードされた音声潜在表現から整流フロー軌道を学習します。学習パイプラインは、事前学習、微調整、および嗜好最適化の3つの段階で構成されています。また、CRPOを介して調整され、反復的に新しい合成データを生成し、嗜好ペアを構築して嗜好最適化を行います。
📦 インストール
pip install git+https://github.com/declare-lab/TangoFlux
💻 使用例
基本的な使用法
import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio
model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)
Audio(data=audio, rate=44100)
📚 ドキュメント
データセット
- cvssp/WavCaps
- declare-lab/CRPO
パイプラインタグ
text-to-audio
引用情報
https://arxiv.org/abs/2412.21037
@misc{hung2024tangofluxsuperfastfaithful,
title={TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization},
author={Chia-Yu Hung and Navonil Majumder and Zhifeng Kong and Ambuj Mehrish and Rafael Valle and Bryan Catanzaro and Soujanya Poria},
year={2024},
eprint={2412.21037},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2412.21037},
}
📄 ライセンス
TangoFluxのチェックポイントは、非商用の研究用途のみに使用できます。これらは、Stable Audio Openのライセンス、WavCapのライセンス、および各学習データセットに付随する元のライセンスの対象となります。
このStability AIモデルは、Stability AI Community Licenseの下でライセンスされており、Copyright © Stability AI Ltd. All Rights Reservedです。