T

Tango2

由declare-lab開發
Tango 2是基於Tango改進的文本生成音頻模型,通過DPO對齊訓練優化音頻生成質量
下載量 147
發布時間 : 4/13/2024

模型概述

Tango 2是一個擴散式文本-音頻生成模型,通過直接偏好優化(DPO)技術對齊人類音頻偏好,能夠根據文本提示生成高質量的音頻內容

模型特點

DPO對齊訓練
使用audio-alpaca數據集進行直接偏好優化,提升音頻生成質量
高質量音頻生成
支持100-200步採樣,生成更自然、真實的音頻
批量生成能力
可同時為多條文本提示生成多個音頻樣本

模型能力

文本到音頻轉換
高質量音頻生成
批量音頻生成

使用案例

音效製作
環境音效生成
根據文本描述生成自然環境音效
生成逼真的水流、風聲等環境音效
事件音效生成
生成特定事件的音效如掌聲、歡呼等
生成符合場景描述的生動音效
媒體制作
影視配樂生成
根據場景描述生成背景音樂
生成與場景氛圍匹配的音樂片段
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase