TangoFlux开源文本转音频模型 - 快速生成高质量音频，免费部署超实用！

首页

Tangoflux

由 declare-lab 开发

TangoFlux是一个高效的文本转音频生成系统，结合流匹配与CLAP偏好优化技术，能够快速生成高质量音频。

音频生成 #超高速音频生成 #高保真文本转音频 #流匹配技术

下载量 727

发布时间 : 12/24/2024

模型简介

TangoFlux通过FluxTransformer模块（包含扩散变换器和多模态扩散变换器）生成44.1kHz/30秒内的音频，支持文本提示和时长嵌入。

模型特点

超高速生成

能够在短时间内生成高质量音频，默认25步生成，建议50步以获得更高质量。

高保真音频

支持44.1kHz采样率，生成30秒内的音频，保证音频质量。

多模态支持

通过文本提示和时长嵌入生成音频，支持多模态输入。

三阶段训练流程

包含预训练、微调和偏好优化三阶段，采用CRPO方法优化模型性能。

模型能力

文本转音频生成

高保真音频生成

多模态输入处理

使用案例

创意内容生成

音效生成

根据文本描述生成特定音效，如'锤子缓慢敲击木桌'。

生成高质量、符合描述的音频文件。

多媒体应用

背景音乐生成

为视频或游戏生成背景音乐。

生成与场景匹配的背景音乐。

🚀 TangoFlux：基于流匹配和Clap排序偏好优化的超快速且忠实的文本到音频生成

TangoFlux是一个文本到音频生成模型，它结合了流匹配和Clap排序偏好优化技术，能够实现超快速且忠实的文本到音频转换。

🚀 快速开始

从我们的GitHub仓库获取TangoFlux：

pip install git+https://github.com/declare-lab/TangoFlux

模型将自动下载并保存到缓存中。后续运行将直接从缓存中加载模型。

generate函数默认使用25步从流模型中采样。我们建议使用50步来生成更高质量的音频，但这会增加运行时间。

import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio

model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)

Audio(data=audio, rate=44100)

✨ 主要特性

模型架构：TangoFlux由FluxTransformer块组成，这些块是扩散变压器（DiT）和多模态扩散变压器（MMDiT），基于文本提示和时长嵌入来生成44.1kHz、最长30秒的音频。
训练流程：TangoFlux学习由变分自编码器（VAE）编码的音频潜在表示的校正流轨迹。其训练管道包括三个阶段：预训练、微调和平偏好优化。
对齐方式：TangoFlux通过CRPO进行对齐，该方法迭代生成新的合成数据并构建偏好对以进行偏好优化。

📦 安装指南

可以使用以下命令从GitHub仓库安装TangoFlux：

pip install git+https://github.com/declare-lab/TangoFlux

💻 使用示例

基础用法

import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio

model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)

Audio(data=audio, rate=44100)

高级用法

# 可以根据需要调整生成参数，如步数和时长，以满足不同的需求
import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio

model = TangoFluxInference(name='declare-lab/TangoFlux')
# 调整步数和时长
audio = model.generate('A gentle breeze blowing through the trees', steps=100, duration=20)

Audio(data=audio, rate=44100)

📚 详细文档

数据集

cvssp/WavCaps
declare-lab/CRPO

引用论文

arXiv:2412.21037

@misc{hung2024tangofluxsuperfastfaithful,
      title={TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization}, 
      author={Chia-Yu Hung and Navonil Majumder and Zhifeng Kong and Ambuj Mehrish and Rafael Valle and Bryan Catanzaro and Soujanya Poria},
      year={2024},
      eprint={2412.21037},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2412.21037}, 
}