🚀 TangoFlux:基于流匹配和Clap排序偏好优化的超快速且忠实的文本到音频生成
TangoFlux是一个文本到音频生成模型,它结合了流匹配和Clap排序偏好优化技术,能够实现超快速且忠实的文本到音频转换。
🚀 快速开始
从我们的GitHub仓库获取TangoFlux:
pip install git+https://github.com/declare-lab/TangoFlux
模型将自动下载并保存到缓存中。后续运行将直接从缓存中加载模型。
generate
函数默认使用25步从流模型中采样。我们建议使用50步来生成更高质量的音频,但这会增加运行时间。
import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio
model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)
Audio(data=audio, rate=44100)
✨ 主要特性
- 模型架构:TangoFlux由FluxTransformer块组成,这些块是扩散变压器(DiT)和多模态扩散变压器(MMDiT),基于文本提示和时长嵌入来生成44.1kHz、最长30秒的音频。
- 训练流程:TangoFlux学习由变分自编码器(VAE)编码的音频潜在表示的校正流轨迹。其训练管道包括三个阶段:预训练、微调和平偏好优化。
- 对齐方式:TangoFlux通过CRPO进行对齐,该方法迭代生成新的合成数据并构建偏好对以进行偏好优化。
📦 安装指南
可以使用以下命令从GitHub仓库安装TangoFlux:
pip install git+https://github.com/declare-lab/TangoFlux
💻 使用示例
基础用法
import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio
model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)
Audio(data=audio, rate=44100)
高级用法
import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio
model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('A gentle breeze blowing through the trees', steps=100, duration=20)
Audio(data=audio, rate=44100)
📚 详细文档
数据集
- cvssp/WavCaps
- declare-lab/CRPO
引用论文
arXiv:2412.21037
@misc{hung2024tangofluxsuperfastfaithful,
title={TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization},
author={Chia-Yu Hung and Navonil Majumder and Zhifeng Kong and Ambuj Mehrish and Rafael Valle and Bryan Catanzaro and Soujanya Poria},
year={2024},
eprint={2412.21037},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2412.21037},
}
相关链接
📄 许可证
TangoFlux的检查点仅用于非商业研究用途。它们受Stable Audio Open的许可证、WavCap的许可证以及每个训练数据集附带的原始许可证的约束。
此Stability AI模型根据Stability AI社区许可证进行许可,版权所有 © Stability AI Ltd. 保留所有权利。