TangoFluxオープンソーステキスト音声変換モデル - 高速で高品質な音声を生成、無料でデプロイでき超実用的！

ホーム

Tangoflux

declare-labによって開発

TangoFluxは効率的なテキスト音声変換生成システムで、フローマッチングとCLAP選好最適化技術を組み合わせ、高品質な音声を迅速に生成できます。

音声生成 #超高速音声生成 #高忠実度テキスト音声変換 #フローマッチング技術

ダウンロード数 727

リリース時間 : 12/24/2024

モデル概要

TangoFluxはFluxTransformerモジュール（拡散トランスフォーマーとマルチモーダル拡散トランスフォーマーを含む）を使用し、44.1kHz/30秒以内の音声を生成し、テキストプロンプトと時間埋め込みをサポートします。

モデル特徴

超高速生成

短時間で高品質な音声を生成可能で、デフォルト25ステップ生成、より高品質を得るには50ステップを推奨。

高忠実度音声

44.1kHzサンプリングレートをサポートし、30秒以内の音声を生成し、音質を保証します。

マルチモーダルサポート

テキストプロンプトと時間埋め込みによる音声生成で、マルチモーダル入力をサポートします。

3段階トレーニングプロセス

事前トレーニング、ファインチューニング、選好最適化の3段階を含み、CRPO手法でモデル性能を最適化します。

モデル能力

テキスト音声変換生成

高忠実度音声生成

マルチモーダル入力処理

使用事例

クリエイティブコンテンツ生成

効果音生成

テキスト記述に基づき特定の効果音を生成、例：'木の机をゆっくり叩くハンマー'。

高品質で記述に合致した音声ファイルを生成。

マルチメディアアプリケーション

BGM生成

動画やゲーム用のBGMを生成。

シーンにマッチしたBGMを生成。

🚀 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap - Ranked Preference Optimization

TangoFluxは、Flow MatchingとClap - Ranked Preference Optimizationを用いた、高速かつ忠実なテキストから音声への生成モデルです。このモデルは、テキストプロンプトと時間埋め込みに基づき、44.1kHzで最大30秒の音声を生成することができます。

🚀 クイックスタート

以下のコマンドを使って、GitHubリポジトリからTangoFluxをインストールします。

pip install git+https://github.com/declare-lab/TangoFlux

モデルは自動的にダウンロードされ、キャッシュに保存されます。その後の実行では、キャッシュから直接モデルが読み込まれます。

generate関数は、デフォルトで25ステップを使用してフローモデルからサンプリングします。より高品質の音声を生成するには、50ステップを使用することをおすすめします。ただし、実行時間が増えるというコストがあります。

import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio

model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)

Audio(data=audio, rate=44100)

✨ 主な機能

TangoFluxは、FluxTransformerブロック（Diffusion Transformer (DiT) とMultimodal Diffusion Transformer (MMDiT)）で構成されています。これらは、テキストプロンプトと時間埋め込みを条件として、44.1kHzで最大30秒の音声を生成します。TangoFluxは、変分オートエンコーダ (VAE) でエンコードされた音声潜在表現から整流フロー軌道を学習します。学習パイプラインは、事前学習、微調整、および嗜好最適化の3つの段階で構成されています。また、CRPOを介して調整され、反復的に新しい合成データを生成し、嗜好ペアを構築して嗜好最適化を行います。

📦 インストール

pip install git+https://github.com/declare-lab/TangoFlux

💻 使用例

基本的な使用法

import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio

model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)

Audio(data=audio, rate=44100)

📚 ドキュメント

データセット

cvssp/WavCaps
declare-lab/CRPO

パイプラインタグ

text-to-audio

引用情報

https://arxiv.org/abs/2412.21037

@misc{hung2024tangofluxsuperfastfaithful,
      title={TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization}, 
      author={Chia-Yu Hung and Navonil Majumder and Zhifeng Kong and Ambuj Mehrish and Rafael Valle and Bryan Catanzaro and Soujanya Poria},
      year={2024},
      eprint={2412.21037},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2412.21037}, 
}