T

Tango

由declare-lab開發
TANGO是基於指令引導擴散的文本轉音頻模型,能夠根據文本提示生成包括人聲、動物聲音、自然與人工音效在內的逼真音頻。
下載量 118
發布時間 : 4/23/2023

模型概述

TANGO是一個用於文本轉音頻生成的潛在擴散模型,採用Flan-T5作為文本編碼器,基於UNet架構的擴散模型進行音頻生成。

模型特點

指令引導擴散
採用指令調優大語言模型Flan-T5作為文本編碼器,實現精準的文本-音頻映射
高質量音頻生成
在客觀指標和主觀評價方面超越當前最先進的音頻生成模型
多樣化聲音生成
支持生成人聲、動物聲音、自然與人工音效等多種類型音頻

模型能力

文本轉音頻生成
多樣化聲音合成
高保真音頻生成

使用案例

多媒體內容創作
影視音效生成
根據劇本描述自動生成場景音效
生成逼真的環境音效和特殊效果
遊戲音頻設計
為遊戲場景生成動態音效
創造沉浸式的遊戲音頻體驗
輔助技術
視障輔助
將文字描述轉換為環境聲音提示
幫助視障人士理解周圍環境
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase