T

Tango2 Full

Developed by declare-lab
Tango 2是基於Tango改進的文本轉音頻生成模型,通過直接偏好優化(DPO)技術實現音頻生成的對齊訓練
Downloads 63
Release Time : 4/13/2024

Model Overview

Tango 2是一個擴散式文本轉音頻生成模型,在Tango-full-ft檢查點基礎上,使用Audio-alpaca配對的文本-音頻偏好數據集進行DPO對齊訓練,能夠根據文本描述生成高質量的音頻

Model Features

直接偏好優化(DPO)
使用DPO技術對模型進行對齊訓練,提高生成音頻的質量和與文本描述的匹配度
擴展訓練數據集
在擴展版Audio-alpaca數據集上進行訓練,增強模型的泛化能力
高質量音頻生成
支持100-200步採樣,可生成高質量的音頻效果

Model Capabilities

文本到音頻轉換
批量音頻生成
場景音效合成

Use Cases

多媒體制作
音效生成
根據文本描述自動生成特定場景的音效
可生成如雷聲、歡呼聲等高質量音效
背景音樂合成
根據場景描述生成匹配的背景音樂
遊戲開發
遊戲音效製作
快速生成各種遊戲場景所需的音效
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase