T

Tango2 Full

由declare-lab開發
Tango 2是基於Tango改進的文本轉音頻生成模型,通過直接偏好優化(DPO)技術實現音頻生成的對齊訓練
下載量 63
發布時間 : 4/13/2024

模型概述

Tango 2是一個擴散式文本轉音頻生成模型,在Tango-full-ft檢查點基礎上,使用Audio-alpaca配對的文本-音頻偏好數據集進行DPO對齊訓練,能夠根據文本描述生成高質量的音頻

模型特點

直接偏好優化(DPO)
使用DPO技術對模型進行對齊訓練,提高生成音頻的質量和與文本描述的匹配度
擴展訓練數據集
在擴展版Audio-alpaca數據集上進行訓練,增強模型的泛化能力
高質量音頻生成
支持100-200步採樣,可生成高質量的音頻效果

模型能力

文本到音頻轉換
批量音頻生成
場景音效合成

使用案例

多媒體制作
音效生成
根據文本描述自動生成特定場景的音效
可生成如雷聲、歡呼聲等高質量音效
背景音樂合成
根據場景描述生成匹配的背景音樂
遊戲開發
遊戲音效製作
快速生成各種遊戲場景所需的音效
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase