T

Tango Full

由declare-lab開發
TANGO是基於潛在擴散模型的文本轉音頻生成工具,能夠根據文本提示生成包括人聲、動物聲音、自然與人工音效在內的逼真音頻。
下載量 15
發布時間 : 5/30/2023

模型概述

TANGO採用凍結參數的指令調優大語言模型Flan-T5作為文本編碼器,並訓練了基於UNet架構的擴散模型進行音頻生成。在客觀指標和主觀評價上,本模型均超越了當前最先進的音頻生成模型。

模型特點

高質量音頻生成
能夠生成包括人聲、動物聲音、自然與人工音效在內的逼真音頻
指令引導擴散
採用指令調優大語言模型Flan-T5作為文本編碼器,實現精準的文本到音頻轉換
超越SOTA性能
在客觀指標和主觀評價上均超越了當前最先進的音頻生成模型

模型能力

文本到音頻生成
多類別聲音合成
高質量音頻渲染

使用案例

娛樂與媒體
音效製作
為影視、遊戲等內容快速生成高質量音效
生成逼真的環境音效和特殊效果音
教育
教學輔助
為教育內容生成配套音頻
創建生動的教學音頻素材
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase