T

Tangoflux

由 declare-lab 开发
TangoFlux是一个高效的文本转音频生成系统,结合流匹配与CLAP偏好优化技术,能够快速生成高质量音频。
下载量 727
发布时间 : 12/24/2024

模型简介

TangoFlux通过FluxTransformer模块(包含扩散变换器和多模态扩散变换器)生成44.1kHz/30秒内的音频,支持文本提示和时长嵌入。

模型特点

超高速生成
能够在短时间内生成高质量音频,默认25步生成,建议50步以获得更高质量。
高保真音频
支持44.1kHz采样率,生成30秒内的音频,保证音频质量。
多模态支持
通过文本提示和时长嵌入生成音频,支持多模态输入。
三阶段训练流程
包含预训练、微调和偏好优化三阶段,采用CRPO方法优化模型性能。

模型能力

文本转音频生成
高保真音频生成
多模态输入处理

使用案例

创意内容生成
音效生成
根据文本描述生成特定音效,如'锤子缓慢敲击木桌'。
生成高质量、符合描述的音频文件。
多媒体应用
背景音乐生成
为视频或游戏生成背景音乐。
生成与场景匹配的背景音乐。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase