TangoFlux開源文本轉音頻模型 - 快速生成高質量音頻，免費部署超實用！

首頁

Tangoflux

由declare-lab開發

TangoFlux是一個高效的文本轉音頻生成系統，結合流匹配與CLAP偏好優化技術，能夠快速生成高質量音頻。

音頻生成 #超高速音頻生成 #高保真文本轉音頻 #流匹配技術

下載量 727

發布時間 : 12/24/2024

模型概述

TangoFlux通過FluxTransformer模塊（包含擴散變換器和多模態擴散變換器）生成44.1kHz/30秒內的音頻，支持文本提示和時長嵌入。

模型特點

超高速生成

能夠在短時間內生成高質量音頻，默認25步生成，建議50步以獲得更高質量。

高保真音頻

支持44.1kHz採樣率，生成30秒內的音頻，保證音頻質量。

多模態支持

通過文本提示和時長嵌入生成音頻，支持多模態輸入。

三階段訓練流程

包含預訓練、微調和偏好優化三階段，採用CRPO方法優化模型性能。

模型能力

文本轉音頻生成

高保真音頻生成

多模態輸入處理

使用案例

創意內容生成

音效生成

根據文本描述生成特定音效，如'錘子緩慢敲擊木桌'。

生成高質量、符合描述的音頻文件。

多媒體應用

背景音樂生成

為視頻或遊戲生成背景音樂。

生成與場景匹配的背景音樂。

🚀 TangoFlux：基於流匹配和Clap排序偏好優化的超快速且忠實的文本到音頻生成

TangoFlux是一個文本到音頻生成模型，它結合了流匹配和Clap排序偏好優化技術，能夠實現超快速且忠實的文本到音頻轉換。

🚀 快速開始

從我們的GitHub倉庫獲取TangoFlux：

pip install git+https://github.com/declare-lab/TangoFlux

模型將自動下載並保存到緩存中。後續運行將直接從緩存中加載模型。

generate函數默認使用25步從流模型中採樣。我們建議使用50步來生成更高質量的音頻，但這會增加運行時間。

import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio

model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)

Audio(data=audio, rate=44100)

✨ 主要特性

模型架構：TangoFlux由FluxTransformer塊組成，這些塊是擴散變壓器（DiT）和多模態擴散變壓器（MMDiT），基於文本提示和時長嵌入來生成44.1kHz、最長30秒的音頻。
訓練流程：TangoFlux學習由變分自編碼器（VAE）編碼的音頻潛在表示的校正流軌跡。其訓練管道包括三個階段：預訓練、微調和平偏好優化。
對齊方式：TangoFlux通過CRPO進行對齊，該方法迭代生成新的合成數據並構建偏好對以進行偏好優化。

📦 安裝指南

可以使用以下命令從GitHub倉庫安裝TangoFlux：

pip install git+https://github.com/declare-lab/TangoFlux

💻 使用示例

基礎用法

import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio

model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)

Audio(data=audio, rate=44100)

高級用法

# 可以根據需要調整生成參數，如步數和時長，以滿足不同的需求
import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio

model = TangoFluxInference(name='declare-lab/TangoFlux')
# 調整步數和時長
audio = model.generate('A gentle breeze blowing through the trees', steps=100, duration=20)

Audio(data=audio, rate=44100)

📚 詳細文檔

數據集

cvssp/WavCaps
declare-lab/CRPO

引用論文

arXiv:2412.21037

@misc{hung2024tangofluxsuperfastfaithful,
      title={TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization}, 
      author={Chia-Yu Hung and Navonil Majumder and Zhifeng Kong and Ambuj Mehrish and Rafael Valle and Bryan Catanzaro and Soujanya Poria},
      year={2024},
      eprint={2412.21037},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2412.21037}, 
}