T

Tangoflux

由declare-lab開發
TangoFlux是一個高效的文本轉音頻生成系統,結合流匹配與CLAP偏好優化技術,能夠快速生成高質量音頻。
下載量 727
發布時間 : 12/24/2024

模型概述

TangoFlux通過FluxTransformer模塊(包含擴散變換器和多模態擴散變換器)生成44.1kHz/30秒內的音頻,支持文本提示和時長嵌入。

模型特點

超高速生成
能夠在短時間內生成高質量音頻,默認25步生成,建議50步以獲得更高質量。
高保真音頻
支持44.1kHz採樣率,生成30秒內的音頻,保證音頻質量。
多模態支持
通過文本提示和時長嵌入生成音頻,支持多模態輸入。
三階段訓練流程
包含預訓練、微調和偏好優化三階段,採用CRPO方法優化模型性能。

模型能力

文本轉音頻生成
高保真音頻生成
多模態輸入處理

使用案例

創意內容生成
音效生成
根據文本描述生成特定音效,如'錘子緩慢敲擊木桌'。
生成高質量、符合描述的音頻文件。
多媒體應用
背景音樂生成
為視頻或遊戲生成背景音樂。
生成與場景匹配的背景音樂。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase