T

Tango

Developed by declare-lab
TANGO是基於指令引導擴散的文本轉音頻模型,能夠根據文本提示生成包括人聲、動物聲音、自然與人工音效在內的逼真音頻。
Downloads 118
Release Time : 4/23/2023

Model Overview

TANGO是一個用於文本轉音頻生成的潛在擴散模型,採用Flan-T5作為文本編碼器,基於UNet架構的擴散模型進行音頻生成。

Model Features

指令引導擴散
採用指令調優大語言模型Flan-T5作為文本編碼器,實現精準的文本-音頻映射
高質量音頻生成
在客觀指標和主觀評價方面超越當前最先進的音頻生成模型
多樣化聲音生成
支持生成人聲、動物聲音、自然與人工音效等多種類型音頻

Model Capabilities

文本轉音頻生成
多樣化聲音合成
高保真音頻生成

Use Cases

多媒體內容創作
影視音效生成
根據劇本描述自動生成場景音效
生成逼真的環境音效和特殊效果
遊戲音頻設計
為遊戲場景生成動態音效
創造沉浸式的遊戲音頻體驗
輔助技術
視障輔助
將文字描述轉換為環境聲音提示
幫助視障人士理解周圍環境
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase